﻿ Bharat Ramsundar Reza Bosag Zadeh TensorFlow pentru învățare profundă De la regresie liniară la învățare prin întărire Bharath Ratnsundar și Reza Bosagh Zadeh Beijing • Boston • Farnham • Sebastopol • Tokyo O'REILLY TensorFlow pentru învățare profundă Bharat Ramsundar Reza Bosag Zadeh Sankt Petersburg "BHV-Petersburg" UDC BBK - R Ramsundar, B P TensorFlow pentru învățare profundă: Per din engleza / B Ramsundar, R B Zade - Sankt Petersburg: BHV-Petersburg, - p : ill ISBN - - - - Cartea prezintă elementele de bază ale bibliotecii software TensorFlow și principiile învățării profunde, pornind de la zero Cartea acoperă calcule de bază din biblioteca TensorFlow, sisteme simple de învățare și construcția lor, rețele profunde complet conectate, prototipuri și transformarea prototipurilor în modele de înaltă calitate, rețele neuronale hiper-precise și procesare a imaginilor, rețele neuronale recurente și seturi de date în limbaj natural, metode pentru învățare cu maximizare întărire pe exemplul unor jocuri bine-cunoscute, tehnici de antrenare a rețelelor profunde folosind procesoare grafice și tensoare Pentru dezvoltatorii de sisteme de învățare automată UZH BBK - Echipa de publicare: Manager de proiect Cap de către editori Traducere din engleză Aspect computer Design coperta Evgeny Rybakov Ekaterina Saviste Andrey Logunov Olga Sergienko Karina Solovieva (c) BHV Traducere autorizată în rusă a ediției în limba engleză a TensorFlow pentru învățare profundă ISBN - - - - (c) Reza Zadeh, Bharath Ramsundar Această traducere este publicată și vândută cu permisiunea O'Reilly Media, Inc , care deține sau controlează toate drepturile de a publica și vinde aceeași traducere Traducere în rusă autorizată a ediției în limba engleză a cărții TensorFlow for Deep Learning ISBN - - - - (c) Reza Zadeh, Bharath Ramsundar Traducerea este publicată și vândută cu permisiunea O'Reilly Media, Inc , proprietarul tuturor drepturilor de a publica și vinde publicația Semnat pentru tipărire pe Format x / Imprimare offset Conv cuptor l Tiraj de exemplare Ordinul nr "BHV-Petersburg", , Sankt Petersburg, str Goncharnaya, Imprimat din aspectul original finit SRL "Print-M", , MO, Cehov, st Poligrafiști, d ISBN - - - - ISBN - - - - (rusă) (c) Reza Zadeh, Bharath Ramsundar (c) Traducere în rusă, proiectat de BHV-Petersburg LLC, BHV LLC, Cuprins Despre autori unsprezece Cuvânt înainte Convenții utilizate în această carte Utilizarea exemplelor de programe Mulțumiri Comentariile traducătorului Sursa Protocolul de instalare a bibliotecii Instalarea bibliotecilor Python din fișierele Whl Capitolul : O introducere în învățarea profundă Învățarea automată "alimentează" informatica Primitive de învățare profundă Stratul complet conectat Stratul de convoluție Straturi ale unei rețele neuronale recurente Celulele memoriei de scurtă durată Arhitecturi de învățare profundă Lenet Alex Net ResNet Model neuronal de titrare a imaginii Traducere automată Google Neural Modele individuale Alpha Go Rețele adversare generative Mașini de Turing neuronale Cadre de calcul pentru auto-învățare profundă Limitările mediului de calcul TensorFlow Rezumat Capitolul Introducere în TensorFlow Primitive Introducere în tensori Scalari, vectori și matrice Matematica matriceală Tensori Tensori în fizică Observații matematice Calcule de bază în TensorFlow Instalarea TensorFlow și începutul Inițializarea tensoarelor constanți Selectarea valorilor aleatorii pentru tensori Adăugarea și scalarea tensoarelor Operații cu matrice Tipuri de tensori Prelucrarea formelor tensoarelor Introducere în operarea de difuzare Programare imperativă și declarativă Grafice TensorFlow Sesiuni TensorFlow Variabilele TensorFlow Rezumat Capitolul Regresia liniară și logistică cu TensorFlow Prezentare generală matematică Funcții și diferențiere Funcții de pierdere Clasificare și regresie Pierdere de lire sterline Moduri de eșec de GBP-pierdere Distribuții de probabilitate Pierdere de entropie încrucișată Coborâre în gradient Sisteme de diferențiere automată Auto-învățare cu TensorFlow Crearea seturilor de date pentru jucării O introducere extrem de scurtă în NumPy De ce sunt importante seturile de date despre jucării? Adăugarea de zgomot utilizând gaussieni Seturi de date de regresie jucărie Date de clasificare Seturi de jucării Noile concepte TensorFlow Umpluturi Transfer de date și dicționare de selecție Spații de nume Optimizatori Preluarea degradelor cu TensorFlow Rezumate și scrierea obiectelor pentru TensorBoard Model Training cu TensorFlow Antrenarea modelelor liniare și logistice în TensorFlow Regresia liniară în TensorFlow Definirea și antrenamentul regresiei liniare în TensorFlow Vizualizarea modelelor de regresie liniară cu TensorBoard Metrici pentru estimarea modelelor de regresie Regresia logistică în TensorFlow Vizualizarea modelelor de regresie logistică cu TensorBoard Metrici pentru evaluarea modelelor de clasificare Rezumat I Cuprins Capitolul Rețele profunde complet conectate Ce este o rețea profund conectată complet? "Neuroni" în rețele complet conectate Învățarea rețelelor complet conectate cu backpropagation Teorema de convergență universală De ce rețele profunde? Antrenamentul rețelelor neuronale complet conectate Reprezentări de învățare Activari Rețele complet conectate Rețineți Regularizare Screening Oprire devreme Regularizarea greutăților Antrenarea rețelelor complet conectate Mini-grupare Viteza de învățare Implementarea în TensorFlow Instalarea DeepChem Setul de date Tox Acceptarea pachetelor de mini-pachet de substituent Implementarea stratului ascuns Adăugați o renunțare la stratul ascuns Implementarea mini-grupării Estimarea acurateței modelului Utilizarea pachetului TensorBoard pentru a urmări convergența modelului Rezumat capitolul Estimarea modelului și optimizarea hiperparametrică Valori, metrici, metrici Indicatori binari de clasificare Metrici de clasificare multiclasă Măsuri de regresie Algoritmi de optimizare a hiperparametrilor Stabilirea unui reper Descendența unui masterand Căutare în zăbrele pentru hiperparametri Căutare aleatorie pentru hiperparametri Sarcina pentru cititor Rezumat Capitolul Introducere în arhitecturile convoluționale Câmpuri receptive locale Kerneluri de convoluție Straturi de reducere Proiectarea rețelelor convoluționale Convoluții întinse Cuprins | Aplicații ale rețelelor convoluționale Detectarea și localizarea obiectelor Segmentarea imaginii Convoluții grafice Generarea de imagini folosind autoencodere variaționale Modele competitive Antrenarea unei rețele convoluționale în TensorFlow Setul de date MNIST Descărcarea setului de date MNIST Primitive convoluționale TensorFlow Arhitectura convoluțională Evaluarea modelelor antrenate Sarcina pentru cititor Rezumat Capitolul Privire de ansamblu asupra arhitecturilor recurente Celulele recurente Memoria pe termen lung Supape colectoare recurente Aplicarea modelelor recurente Eșantionarea din rețele recurente Modele Seq seq Mașini de Turing neuronale Lucrul cu rețele neuronale recurente în practică Prelucrarea carcasei Repp Treebank Cod de program pentru preprocesare Încărcarea datelor în TensorFlow Arhitectura recurentă de bază Sarcina pentru cititor Rezumat Capitolul Auto-învățare cu maximizarea întăririi Procesele de decizie Markov Algoritmi pentru auto-învățare cu maximizarea întăririi -învățare Strategii Antrenament asincron Limitările auto-învățarii cu maximizarea întăririi Jocul tic-tac-toe Orientarea obiectului Mediu abstract Mediul Tic-Tac-Toe Abstracția stratului Definirea unui grafic de strat Algoritmul stației de alimentare Funcția de pierdere Definirea fluxurilor de lucru Implementarea unei situații de joc în fluxuri de lucru Formare strategică I Cuprins Sarcina pentru cititor Rezumat Capitolul Antrenarea rețelelor mari și adânci Hardware dedicat pentru rețele de adâncime Antrenament pe CPU Antrenament GPU Procesoare tensoare Matrice de porți programabile de utilizator Chipsuri neuromorfe Instruire distribuită în rețea profundă Paralelismul datelor Paralelismul modelului Antrenament paralel asupra datelor CifarlO folosind mai multe GPU-uri Descărcarea și încărcarea datelor Aprofundare în arhitectură Antrenament multi-GPU Sarcina pentru cititor Rezumat Capitolul Viitorul auto-învățarii profunde Auto-învățare profundă în afara industriei tehnologice Auto-învățare profundă în industria farmaceutică Auto-învățare profundă în justiție Auto-învățare profundă pentru robotică Auto-învățare profundă în agricultură Utilizarea etică a auto-învățarii profunde Este inteligența artificială universală cu adevărat inevitabilă? Unde să merg mai departe? Index de subiecte Cuprins | Despre autori Bharath Ramsundar a primit o licență în Arte și Științe în Inginerie Electrică, Informatică și Matematică de la Institutul UC Berkeley, absolvind cu laude în Matematică În prezent, este student absolvent în informatică la Universitatea Stanford, în Pande Lab Activitatea sa de cercetare se află în domeniul aplicării învățării profunde în crearea de medicamente În special, Bharat este dezvoltatorul principal al DeepChem io, un pachet open source bazat pe biblioteca TensorFlow, care se concentrează pe democratizarea utilizării învățării profunde în crearea de medicamente Este un Hertz Graduate Scholar, cea mai selectivă școală absolventă din domeniu Reza Bosagh Zadeh este fondatorul și CEO-ul Matroid și profesor adjunct la Universitatea Stanford Activitățile sale profesionale se află în domeniul învățării automate, al matematicii aplicate computaționale și discrete Reza și-a luat doctoratul în matematică computațională de la Universitatea Stanford sub supravegherea lui Gunnar Karlsson Premiile sale includ Premiul KDD pentru cea mai bună lucrare pentru descoperirea cunoștințelor în baze de date și Premiul pentru teză excepțională Gene Golub pentru teză excepțională A făcut parte din consiliile consultative tehnice ale Microsoft și Databricks Ca parte a cercetării sale, Reza construia algoritmii de învățare automată care stau la baza sistemului "pe cine să citească" al Twitter, care a fost primul produs de învățare automată al rețelei de socializare Reza a fost pionier în pachetul de algebră liniară în Apache Spark, iar munca sa a fost încorporată în mediile de calcul cluster industriale și academice Pe lângă cercetare, Reza a dezvoltat și predă două clase la nivel de doctorat la Universitatea Stanford: Algoritmi și optimizare distribuite (CME ) și Matematică și algoritmi discrete (CME ) unsprezece cuvânt înainte Această carte vă va prezenta elementele fundamentale ale învățării automate folosind TensorFlow, noua bibliotecă de software de învățare profundă a Google, care facilitează proiectarea și implementarea arhitecturilor complexe de învățare profundă pentru ingineri Veți învăța cum să utilizați biblioteca TensorFlow pentru a construi sisteme care să detecteze obiecte în imagini, să înțeleagă textul uman și să prezică proprietățile potențialelor medicamente În plus, veți obține o înțelegere intuitivă a puterii TensorFlow ca cadru pentru efectuarea calculului tensor și veți învăța cum să îl utilizați pentru sarcini în afara domeniului tradițional al învățării automate Este important de menționat că această carte este una dintre primele cărți de deep learning scrise pentru practicieni Ea predă concepte fundamentale cu exemple practice și dezvoltă o înțelegere a elementelor fundamentale ale învățării automate de la zero Publicul vizat pentru această carte este dezvoltatorii practicanți care nu au probleme în proiectarea sistemelor software, dar care nu sunt întotdeauna buni la construirea sistemelor de învățare Pe parcursul prezentării, vom folosi doar ocazional algebră liniară elementară și analiză matematică, dar în același timp vom lua în considerare toate principiile fundamentale necesare De asemenea, ne așteptăm ca cartea noastră să fie utilă oamenilor de știință și altora care nu au nicio problemă în a scrie scenarii, dar nu neapărat la proiectarea algoritmilor de învățare Convenții utilizate în această carte Cartea folosește următoarele convenții tipografice: ♦ cursivele indică termeni noi; ♦ caracterele aldine sunt folosite pentru a evidenția adresele de internet, elementele de interfață ale produselor software; ♦ fontul monospace este folosit pentru listele de programe și în cadrul paragrafelor pentru a se referi la elemente de program precum variabile sau nume de funcții, baze de date, tipuri de date, variabile de mediu, instrucțiuni și cuvinte cheie; ♦ bold monospace iffift arată comenzi sau alt text care ar trebui introdus direct de utilizator; ♦ fontul italic monospațiu indică text care ar trebui înlocuit cu valori furnizate de utilizator sau cu valori determinate de context Acest element indică o remarcă generală Acest element indică un indiciu sau un sfat Acest element indică o avertizare sau o atenție Utilizarea Programelor Exemple Materiale suplimentare (eșantioane de cod, exerciții etc ) sunt disponibile pentru descărcare la https://github com/matroid/dlwithtf Avem o pagină web pentru această carte unde postăm errate, exemple și orice informații suplimentare Puteți accesa această pagină la http://bit ly/tensorflowForDeepLearmng Mulțumiri Bharat este recunoscător conducătorului său de doctorat pentru că i-a oferit oportunitatea de a lucra la această carte noaptea și în weekend, și în special familiei sale pentru sprijinul neclintit pe tot parcursul procesului Reza este recunoscător comunităților open source pe care se bazează marea majoritate a software-ului și cercetării informatice Software-ul open source este una dintre cele mai mari concentrații de cunoștințe umane create vreodată, iar această carte nu ar fi posibilă fără întreaga comunitate | cuvânt înainte Comentariile traducătorului Ca subdomenii ale informaticii, învățarea automată și învățarea profundă se concentrează pe algoritmi, modele și sisteme care pot învăța Un sistem de învățare este un sistem care își poate îmbunătăți performanța în timp folosind informațiile primite În literatura străină de specialitate pe această temă, spre deosebire de limba rusă, există termeni separați pentru transferul de cunoștințe și dobândirea de cunoștințe - instruiți (antrenați, antrenați) și învățați (învățați) Următoarea propoziție din capitolul al acestei cărți demonstrează clar acest lucru Mașina Neural Turing poate fi instruită de la capăt la capăt pentru a învăța să efectueze calcule arbitrare O mașină Turing neuronală poate fi antrenată de la capăt la capăt pentru a învăța cum să facă orice calcul Instruirea este munca pe care o face un cercetător în design pentru a obține un model sau un sistem de auto-învățare funcțional În centrul unui astfel de model sau sistem se află un algoritm de învățare, care nu este "nimic mai mult decât o căutare a minimelor (sau maximelor) pentru funcții formulate corect" Auto-învățarea (învățarea) este munca pe care o realizează algoritmul cursantului, este procesul de dobândire sau schimbare și consolidare a cunoștințelor, comportamentului, abilităților, valorilor sau preferințelor existente Deci, termenul rusesc "educație" poartă o ambiguitate, deoarece poate însemna atât transferul de cunoștințe, cât și dobândirea de cunoștințe Pe de altă parte, apariția termenului de învățare sub orice formă implică exclusiv a doua - munca efectuată de algoritmul de învățare, adică auto-învățare, memorarea prin algoritmul de ponderi și parametri Prin urmare, spre deosebire de termenul rusesc "învățare automată", care poate însemna atât formarea mașinilor, cât și capacitatea mașinilor de a învăța, în esență, termenul englezesc învățarea automată se referă la învățarea automată În acest sens, trebuie remarcat în mod deosebit următorul punct De la începutul anilor până la mijlocul anilor , termenul "mașini de învățare" a fost folosit Problemele mașinilor de învățare și de autoproducere au fost studiate în lucrările lui A Turing "Can a machine think?", (learning machines), C Shannon "Works on information theory and cybernetics" (self-reproducting machines), N Wiener, "Cybernetics, or control and communication in an animal and a machine" ( ), N Nilson "Learning machines" ( ) și Ya Z Tsypkin "Fundamentals of theory of learning systems" ( ) A se vedea https://ru wikipedia org/wiki/ y aioiuancn CHCTeMa și, de asemenea, https://bigenc ru/mathematics/text/ - Aprox pe Consultați http://www basicknowledgel eom/subjects/learningstyles html#diy -Aproximativ pe Cuvânt înainte | În concluzie, termenul englezesc de învățare automată este exprimat mai precis prin termenul "auto-învățare automată" sau "tehnologia mașinii de învățare" Un fapt interesant: în spaniolă, este tradus ca aprendizaje automatice, adică auto-învățare automată În această traducere, în continuare, se ia ca bază o abordare străină, care ne-a obligat inevitabil să corectăm terminologia Iată câteva dintre aceste ajustări Domeniile relevante ale informaticii au fost traduse ca învățare automată și învățare profundă Algoritmii, modelele și sistemele utilizate în aceste domenii au fost traduse ca învățare, învățare automată și învățare profundă Adică, accentul nu se pune pe clasificarea algoritmului în ierarhia corespunzătoare, ci pe proprietatea lui caracteristică Mai mult, metodele care sunt implementate în algoritmii de învățare sunt traduse ca metode de auto-învățare (cf metode de învățare) După cum știți, aceste metode se împart în trei categorii mari Urmând principiul briciului lui Occam, acestea au fost traduse ca metode de auto-învățare supravegheată (cf învățare supervizată), metode de auto-învățare nesupravegheată (cf învățare nesupravegheată) și metode de auto-învățare care maximizează întărirea (cf învățare prin întărire) Ultimul termen se datorează particularității algoritmului de bază - "învățarea să maximizeze un anumit concept de recompensă" primit pentru acțiunea corectă Printre mulți hiperparametri care vă permit să personalizați activitatea algoritmului de învățare, se numără rata de învățare, care se traduce prin rata de învățare (cf rata de învățare) Sursă Traducerea cărții este prevăzută cu explicații și referințe plasate în note de subsol Această carte este cu adevărat o resursă utilă "tot ce trebuie să știi despre învățarea profundă" la nivel profesional Baza de cod elementară a cărții a fost testată pe Windows Testarea codului sursă se bazează pe versiunea Python (tradusă în aprilie ) ACEASTA carte folosește bibliotecile tensorflow, numpy, matplotlib, scikit-learn ȘI deepehem (https://deepchem io) În circumstanțe normale, bibliotecile Python pot fi descărcate și instalate din PyPi Python Library Directory (https://pypi python org/) folosind managerul de pachete pіp Cu toate acestea, rețineți că pe Windows, unele biblioteci, cum ar fi scipy, scikit-learn și scikit-image, necesită instalarea bibliotecii Numpy+MKL pe sistem Biblioteca Numpy+MKL este conectată la Biblioteca Intel* Math Kemel și include bibliotecile dinamice (DLL) necesare în directorul sppr eore Biblioteca Numpy+MKL ar trebui să fie descărcată din depozitul de fișiere whl de pe pagina web a lui Christoph Gohlke de la Laboratorul Fluorescence Dynamics de la Universitatea din California, Irvine (http://www lfd uci edu/~gohlke/pythonlibs/) ) și instalat la Consultați https://en wikipedia org/wiki/Reinforcement learning - Aprox pe | cuvânt înainte ajutor al managerului de pachete pip ca whl (procedura corespunzătoare pentru instalarea pachetelor în format WHL este descrisă mai jos) De exemplu, pentru un sistem de operare Windows pe de biți și un mediu Python , comanda ar fi: pip install numpy- +mkl-cp -cp m win amd whl De asemenea, merită remarcat faptul că aceste caracteristici de instalare nu se aplică pentru Linux și Mac OS X Protocol de instalare a bibliotecii Următoarea este o listă de comenzi pentru instalarea bibliotecilor descărcate din depozitul de fișiere whl python -sh pip install upgrade pip pip install numpy- +mkl-cp -cp m-win amd whl pip install scikit learn- -cp -cp m-win aind whl Bibliotecile tensorfiow și matpiotiib sunt instalate în modul standard: pip install tensorfiow pip install matpiotiib Notă În funcție de sistemul de operare subiacent, versiunile de limbă Python și versiunile bibliotecii de software, versiunile fișierelor whl pe care le instalați pot diferi de cele afișate mai sus, care arată cea mai recentă din mai pentru Windows pe de biți și Python Instalarea bibliotecilor Python din fișierele whl Bibliotecile pentru Python pot fi dezvoltate nu numai în Python pur Destul de des, bibliotecile sunt programate în C (biblioteci dinamice) și pentru ele este scris un wrapper Python, sau o bibliotecă este scrisă în Python, dar pentru a optimiza blocajele, o parte din cod este scrisă în C Astfel de biblioteci sunt foarte rapide, dar bibliotecile intercalate cu cod C pentru programatorul Python sunt mai greu de instalat din cauza lipsei banale de cunoștințe relevante sau a componentelor și setărilor necesare în mediul de producție (mai ales pe Windows) Pentru a rezolva problemele descrise, a fost dezvoltat un format special (fișiere cu extensia whl) pentru distribuirea bibliotecilor, care conține o versiune precompilată a bibliotecii cu toate dependențele acesteia Formatul WHL este acceptat de toate platformele majore (Mac OS X, Linux, Windows) Instalarea se face folosind managerul de bibliotecă pіp Spre deosebire de instalarea obișnuită cu comanda pip install , în loc de numele bibliotecii, este indicată calea către fișierul whl: pip install De exemplu, pip install C:\temp\scipy- l-cp -cp m-win amd whl Cuvânt înainte | Deschideți o fereastră de linie de comandă și cd-ul în directorul în care se află fișierul whl Doar copiați fișierul whl acolo În acest caz, nu trebuie să specificați calea completă De exemplu, pip install scipy- o l-cp -cp m-win amd whl Atunci când alegeți o bibliotecă, este important ca bitness-ul bibliotecii instalate și bitness-ul interpretului să se potrivească Utilizatorii de Windows pot descărca fișiere whl de pe site-ul web al lui Christoph Golk Bibliotecile de acolo sunt actualizate constant, iar arhiva conține tot ce ai putea avea nevoie | cuvânt înainte CAPITOLUL Introducere în învățarea profundă Învățarea profundă a revoluționat industria tehnologiei Traducerea automată modernă, motoarele de căutare și asistenții informatici lucrează pe baza unei auto-învățari profunde Această tendință va continua doar pe măsură ce auto-învățarea profundă se va extinde în robotică, produse farmaceutice, energie și alte domenii ale tehnologiei moderne Pentru un inginer software, dobândirea de abilități practice în auto-învățare profundă devine rapid o prioritate de top În acest capitol, vă vom prezenta istoria învățării profunde și impactul său mai larg asupra comunităților de cercetare și de afaceri În continuare, ne vom uita la unele dintre cele mai faimoase aplicații ale auto-învățarii profunde Acestea vor include atât arhitecturi remarcabile de învățare automată, cât și primitive fundamentale de învățare profundă La final, vom oferi o scurtă privire de ansamblu asupra direcțiilor pe care le va lua învățarea profundă în următorii câțiva ani, după care ne vom scufunda în TensorFlow în următoarele câteva capitole Învățarea automată se "alimentează" cu informatica Până de curând, viitorii ingineri de software au participat la prelegeri la instituții de învățământ specializate pentru a învăța o serie de algoritmi de bază (căutare grafică, sortare, interogări baze de date etc ) La finalizarea studiilor, acești ingineri au aplicat cunoștințele dobândite într-un anumit loc de muncă Marea majoritate a economiei digitale moderne este construită pe lanțuri complexe de algoritmi de bază lipiți minuțios de generații de ingineri Și majoritatea acestor sisteme nu sunt adaptabile Toate configurațiile și reconfigurările trebuie efectuate de ingineri cu înaltă calificare, făcând astfel de sisteme fragile Învățarea automată promite să schimbe domeniul dezvoltării software, permițând sistemelor să se adapteze dinamic Sistemele de învățare automată implementate sunt capabile să învețe comportamentul dorit din baze de date exemple În plus, astfel de sisteme pot fi instruite în mod regulat pe măsură ce noi date devin disponibile Sisteme software foarte complexe conduși de învățarea automată sunt capabili să-și schimbe radical comportamentul fără modificări semnificative ale codului programului (doar în datele de antrenament) Este posibil ca această tendință să se accelereze pe măsură ce învățarea automată devine mai ușoară și mai larg adoptată Pe măsură ce comportamentul sistemelor software se schimbă, la fel se schimbă și rolurile inginerilor software Într-un fel, această transformare va fi similară cu transformarea care a urmat dezvoltării limbajelor de programare Primele calculatoare au fost atent programate Firele au fost combinate într-o rețea complexă interconectată Apoi au fost inventate cardurile perforate, care au făcut posibilă crearea de noi programe fără modificări hardware în computere După epoca cărților perforate, au apărut primele limbaje de asamblare Apoi limbi de nivel superior precum Fortran sau Lisp Nivelurile ulterioare de dezvoltare au creat limbaje de nivel foarte înalt precum Python cu ecosisteme complexe de algoritmi preprogramați Informatica modernă se bazează în mare măsură pe codul programului generat automat Dezvoltatorii de aplicații de astăzi folosesc instrumente precum Android Studio pentru a genera automat cea mai mare parte a codului pe care doresc să-l creeze Astfel, fiecare val ulterior de simplificare a extins domeniul de aplicare al informaticii, scăzând barierele de intrare Învățarea automată promite să reducă și mai mult barierele; programatorii vor putea în curând să schimbe comportamentul sistemelor prin modificarea datelor de antrenament, poate fără a scrie cod Din partea utilizatorului, sisteme de înțelegere a limbajului natural, cum ar fi Alexa și Siri va oferi non-programatorilor capacitatea de a efectua calcule complexe În plus, este posibil ca sistemele cu învățare automată încorporată să devină mai tolerante la erori Capacitatea de a antrena în mod repetat modele va însemna că bazele de cod pot fi reduse și mentenabilitatea îmbunătățită Cu alte cuvinte, învățarea automată va depăși cu totul rolul inginerilor de software Programatorii de astăzi trebuie să înțeleagă modul în care sistemele de învățare automată învață și să fie conștienți de clasele de erori care apar în sistemele convenționale de învățare automată În plus, ei vor trebui să înțeleagă modelele de design care stau la baza sistemelor de învățare automată (care diferă foarte mult ca stil și formă de modelele clasice de proiectare a software-ului) Și vor trebui să înțeleagă suficient despre calculul tensorului pentru a înțelege de ce arhitectura complexă profundă se poate comporta necorespunzător în timpul auto-învățarii Nu este deloc subestimat să spunem că înțelegerea (teoria și practica) învățării automate va fi o abilitate fundamentală pe care fiecare informatician și inginer de software va trebui să o dobândească în următorul deceniu Mai târziu, în acest capitol, vom face un tur al fundamentelor auto-învățarii profunde moderne În capitolele rămase ale acestei cărți, vom intra în mai multe detalii despre subiectele pe care le vom atinge doar aici I Capitolul Primitive de învățare profundă Cele mai multe arhitecturi profunde sunt construite prin gruparea și regruparea unui set limitat de primitive arhitecturale Astfel de primitive, denumite în mod obișnuit straturi de rețele neuronale, sunt blocurile fundamentale ale rețelelor profunde În restul acestei cărți, vom oferi o introducere detaliată a acestor straturi Cu toate acestea, în această secțiune, vom oferi o scurtă prezentare generală a modulelor comune care se găsesc în multe rețele profunde Această secțiune nu este destinată a fi o introducere detaliată a acestor module Mai degrabă, ne propunem să vă concentrăm atenția asupra elementelor de bază ale arhitecturilor profunde complexe pentru a vă stârni interesul Arta învățării profunde constă în gruparea și regruparea unor astfel de module și dorim să vă ghidăm pe calea cea bună către expertiza în învățarea profundă Strat complet conectat O rețea complet conectată transformă o listă de intrări într-o listă de ieșiri O astfel de transformare se numește complet conectată deoarece orice valoare de intrare poate afecta orice valoare de ieșire Astfel de straturi vor avea mulți parametri de învățare, chiar și pentru intrări relativ mici, dar aceste straturi au un mare avantaj deoarece permit o lipsă de structură a intrărilor Acest concept este ilustrat în fig Orez Strat complet conectat Săgețile de intrare reprezintă intrarea, iar săgețile de ieșire reprezintă ieșirea Grosimea liniilor interconectate este valoarea greutăților învățate Un strat complet conectat transformă datele de intrare în date de ieșire folosind o regulă învățată Introducere în Deep Learning | Stratul convoluțional O rețea convoluțională provine dintr-o structură spațială specială în intrare În special, se presupune că intrările care sunt apropiate spațial una de alta sunt legate semantic Această ipoteză are cel mai mult sens pentru imagini, deoarece pixelii care sunt apropiați unul de celălalt sunt probabil să fie legați semantic Ca rezultat al acestei abordări, straturile convoluționale și-au găsit o aplicație largă în arhitecturile de procesare a imaginii profunde Acest concept este ilustrat în fig La fel ca straturile complet conectate, care convertesc listele în liste, straturile convoluționale convertesc imaginile în imagini Prin urmare, straturile convoluționale pot fi folosite pentru a efectua transformări complexe de imagine, cum ar fi aplicarea de filtre artistice imaginilor în aplicațiile de procesare foto Orez stratul convoluțional Forma din stânga reprezintă intrarea, forma din dreapta ieșirea În acest caz particular, intrarea este de forma ( , , ), adică intrarea este o imagine de x pixeli cu trei canale de culoare RGB Selecția de intrare (stânga) este un "câmp receptiv local", un grup de intrări care sunt procesate împreună pentru a crea o selecție în ieșire (dreapta) Straturi de rețele neuronale recurente Straturile rețelelor neuronale recurente (RNN) sunt primitive care permit rețelelor neuronale să învețe din secvențe de date de intrare Acest strat presupune că intrarea se schimbă de la pas la pas, urmând o regulă de actualizare bine definită care poate fi învățată din date Această regulă de actualizare este o predicție a stării următoare din secvența dată tuturor stărilor care au apărut înainte Rețeaua RNN este prezentată în fig Stratul RNN este capabil să învețe această regulă de actualizare din date, făcând RNN-urile foarte utile pentru sarcini precum modelarea limbajului, în care inginerii încearcă să construiască sisteme care pot prezice următorul cuvânt pe care îl vor introduce utilizatorii pe baza datelor acumulate I Capitolul Orez Rețea neuronală recurentă Intrările intră în rețea de jos, iar ieșirile sunt extrase de sus IV este transformarea învățată (comună pentru toți pașii de timp) Rețeaua este reprezentată conceptual în stânga și desfășurată în dreapta pentru a demonstra modul în care sunt procesate intrările din diferiți pași de timp Celulele de memorie pe termen lung Straturile RNN introduse în secțiunea anterioară sunt teoretic capabile să învețe reguli de actualizare arbitrare pentru a lucra cu o secvență În practică, totuși, astfel de straturi sunt incapabile să învețe din influențele din trecutul îndepărtat Astfel de influențe îndepărtate sunt esențiale pentru modelarea de încredere a limbajului, deoarece sensul unei propoziții compuse poate depinde de relația dintre cuvintele îndepărtate Celula de memorie pe termen lung (LSTM) este o modificare a stratului RNN care permite semnalelor să treacă din trecutul profund în prezent Celula LSTM este prezentată în fig Orez Celula memoriei pe termen lung La nivel intern, o celulă LSTM are un set de operațiuni special concepute care asigură o parte semnificativă din capacitatea de antrenament a unei rețele RNN clasice, păstrând în același timp influențele din datele anterioare Figura prezintă o variantă a celulei LSTM din multe Introducere în Deep Learning | Arhitecturi de învățare profundă Există sute de modele diferite de învățare profundă care combină primitivele de învățare profundă introduse în secțiunea anterioară Unele dintre aceste arhitecturi sunt importante din punct de vedere istoric Altele au fost primele demonstrații ale celor mai recente abordări de design care au influențat percepția asupra a ceea ce ar putea face auto-învățarea profundă În această secțiune, prezentăm o selecție de diferite arhitecturi de învățare profundă care au influențat comunitatea de cercetare Vrem să subliniem că această prezentare este episodică și nu se pretinde a fi exhaustivă Există cu siguranță modele importante în literatura profesională care nu sunt prezentate aici LeNet Arhitectura LeNet este probabil prima arhitectură convoluțională "profundă" proeminentă, care a fost introdusă în A fost folosită pentru a efectua recunoașterea optică a caracterelor (OCR) pe documente Deși și-a făcut treaba admirabil, capacitatea de calcul a LeNet a fost extremă pentru hardware-ul de calcul disponibil la acea vreme, așa că această abordare de proiectare a rămas în obscuritate (relativă) timp de câteva decenii după crearea sa Această arhitectură este prezentată în Fig Intrare Reducere convoluțională stratul stratul Reducere convoluțională Strat ascuns Stratul Stratul Ieșire Convoluţie Convoluția subeșantionului Convoluția subeșantionului Conexiune completă Orez Arhitectura LeNet pentru procesarea imaginilor Introdus în , a fost probabil primul model de convoluție profundă pentru procesarea imaginilor AlexNet Provocarea de recunoaștere vizuală la scară largă a ImageNet (ILSVRC) a fost lansată pentru prima dată în pentru a demonstra succesul sistemelor de recunoaștere vizuală Organizatorii au folosit Amazon Mechanical Turk, o platformă online pentru a conecta lucrătorii cu solicitanții pentru a cataloga o colecție mare de imagini cu liste asociate de obiecte prezente în imagine Folosind plăci I Capitolul Formele Mechanical Turk au creat o colecție de date mult mai mare decât cea colectată anterior Primii doi ani de competiție au văzut triumful sistemelor de învățare automată mai tradiționale care se bazau pe sisteme precum HOG și SIFT (tehnici de extracție manuală a caracteristicilor vizuale) În , arhitectura AlexNet, bazată pe o modificare LeNet care rulează pe procesoare grafice (GPU) puternice, a început să domine proiectul cu o rată de eroare la jumătate față de cea a concurenților săi cei mai apropiați Această victorie a reînviat dramatic tendința (deja în curs de dezvoltare) către arhitecturi de învățare profundă în viziunea computerizată Arhitectura AlexNet este ilustrată în fig Max Max Reducere maximă Strat de reducere a pasului strat Orez Arhitectura AlexNet pentru procesarea imaginilor Această arhitectură a fost câștigătoarea competiției ILSVRC și a contribuit la renașterea interesului pentru arhitectura convoluțională ResNet Din , arhitecturile convoluționale au câștigat constant competiția ILSVRC (împreună cu multe alte competiții de viziune computerizată) Cu fiecare an de concurs, arhitectura câștigătoare a crescut în profunzime și complexitate Arhitectura ResNet, câștigătoarea competiției ILSVRC din , a fost deosebit de remarcabilă: a fost extinsă la de straturi în adâncime, spre deosebire de arhitectura AlexNet cu straturi Rețelele foarte adânci au fost antrenate cu mare dificultate; când rețelele cresc până la această adâncime, se confruntă cu problema gradienților care dispar Semnalele sunt atenuate pe măsură ce se deplasează prin rețea, rezultând o auto-învățare slăbită Această atenuare poate fi explicată matematic, dar efectul este că fiecare strat suplimentar reduce puterea semnalului în mod multiplicativ, ceea ce duce la o limitare a adâncimii efective a rețelelor ResNet a introdus o inovație care controlează atenuarea - conexiunea bypass (Fig ) Aceste conexiuni permit unei părți a semnalului să treacă din straturi mai adânci fără atenuare, făcând posibilă antrenarea eficientă a rețelelor mult mai profunde Introducere în Deep Learning | Maparea identității x Orez Celulă resnet Bypass-ul (mapping identity) din partea dreaptă permite unei versiuni nemodificate a semnalului de intrare să treacă prin celulă Această modificare vă permite să antrenați eficient arhitecturi convoluționale foarte profunde Model de titrare a imaginii neuronale Pe măsură ce practicanții au încetat să mai aibă probleme cu utilizarea primitivelor de învățare profundă, au început să experimenteze prin amestecarea și potrivirea modulelor de primitive pentru a crea sisteme de ordin superior care ar putea îndeplini sarcini mai complexe decât detectarea elementului de obiecte Sistemele de titluri neuronale generează automat subtitrări pentru conținutul imaginii Ei fac acest lucru combinând o rețea convoluțională care extrage informații din imagini cu un strat LSTM care generează o propoziție descriptivă pentru imagine Întregul sistem este antrenat într-un mod end-to-end Adică antrenarea rețelei convoluționale și a rețelei LSTM se face împreună pentru a atinge scopul dorit de a genera propoziții descriptive pentru imaginile furnizate Această instruire end-to-end este una dintre inovațiile cheie care alimentează sistemele de învățare profundă de astăzi, deoarece reduce Imagine de intrare Convoluțional RNN cu atenție extragerea caracteristicilor pe o imagine (hartă caracteristică x ) Generarea cuvintelor Orez Arhitectura titrarii neuronale Caracteristicile de intrare corespunzătoare sunt extrase din imaginea de intrare folosind o rețea convoluțională Rețeaua recurentă este apoi folosită pentru a crea o propoziție descriptivă | Capitolul necesitatea preprocesării complexe a datelor de intrare Modelele de titrare a imaginilor care nu folosesc auto-învățare profundă trebuie să utilizeze tehnici sofisticate de procesare a imaginii, cum ar fi SIFT, care nu pot fi antrenate cu un generator de titluri Modelul de titrare neuronală este prezentat în fig Traducere automată Google Neural Sistemul Google Neural Machine Translation (Google-NMT) folosește paradigma de instruire end-to-end pentru a crea un sistem de traducere de producție care transformă propozițiile din limba sursă direct în limba țintă Sistemul Google-NMT depinde de un bloc fundamental, care este stratul LSTM, pe care îl nivelează de peste o duzină de ori și îl antrenează pe un set extrem de mare de propoziții traduse Arhitectura rezultată a oferit o descoperire în traducerea automată, reducând decalajul dintre traducerea umană și cea automată cu % Arhitectura Google-NMT este prezentată în Fig Orez Sistemul de traducere automată neuronală Google folosește o arhitectură recurentă profundă pentru a procesa o propoziție de intrare și o a doua arhitectură recurentă profundă pentru a genera o propoziție de ieșire tradusă Modele unice Auto-învățarea o singură dată este probabil cea mai interesantă idee nouă în învățarea automată/deep learning Pentru a învăța un comportament semnificativ, majoritatea metodelor de auto-învățare profundă necesită de obicei cantități foarte mari de date Arhitectura AlexNet, de exemplu, sa bucurat de minune Introducere în Deep Learning | Compus chimic nou Set de date Compus chimic Oxid Dopamină Tosil cafeină Etanol Ioni stiren Acid litiu ,-Mark Q? i Previziune Orez Arhitectura one-shot folosește un fel de rețea convoluțională pentru a transforma fiecare moleculă într-un vector Vectorul pentru oxidul de stiren este comparat cu vectorii din setul de date experimentale Eticheta pentru cel mai asemănător punct de date (acid tosilic) este afișată ca răspuns la interogare | Capitolul cu setul de date ILSVRC pentru a învăța detectarea obiectelor vizuale Cu toate acestea, multă muncă în știința cognitivă a arătat că oamenii pot învăța concepte complexe din doar câteva exemple Luați un copil care învață despre girafe pentru prima dată Un copil căruia i s-a arătat o girafă la grădina zoologică poate învăța apoi să recunoască toate girafele pe care le vede Progresele recente în auto-învățare profundă s-au manifestat prin invenția de arhitecturi capabile de progrese similare în auto-învățare Având doar câteva exemple ale unui concept dat (dar surse abundente de informații suplimentare), astfel de sisteme pot învăța să facă predicții semnificative cu foarte puține puncte de date Într-o lucrare recentă (de autorul acestei cărți), această idee a fost folosită pentru a demonstra că arhitecturile one-shot pot învăța în contexte pe care copiii nu le pot învăța, cum ar fi descoperirea de medicamente O arhitectură unică pentru descoperirea medicamentelor este prezentată în Figura Alpha Go Go este un joc antic de societate foarte popular în Asia De la sfârșitul anilor , computer Go a reprezentat o provocare majoră pentru informatică Tehnicile care au permis sistemului de șah computerizat Deep Blue să-l învingă pe marele maestru Garry Kasparov în nu se adaptează la jocul Go Un motiv pentru aceasta este că Go are o tablă mult mai mare decât șahul; Plăcile Go sunt aliniate de x pătrate (Figura ), spre deosebire de pătratele de x pentru șah Deoarece pot fi făcute multe alte mișcări într-un singur pas, arborele de mișcări posibile al jocului se extinde mult mai repede, făcând căutările cu forță brută, chiar și cu hardware-ul computerului modern, insuficientă pentru un joc adecvat Orez Ilustrație de tablă de joc pentru jocul go Jucătorii plasează alternativ piesele albe și negre pe un câmp pătrat de x Introducere în Deep Learning | Computerul Go la nivel de Grandmaster a fost implementat în sfârșit cu succes de programul AlphaGo dezvoltat de Google DeepMind AlphaGo a reușit să-l învingă pe unul dintre cei mai puternici campioni de go din lume, Lee Sedo-la, într-o serie de cinci jocuri Unele dintre ideile cheie ale AlphaGo implică utilizarea unei rețele de valoare profundă (rețea de valoare profundă) și a unei rețele strategice profunde (rețea de politici profunde) Rețeaua de valori oferă o estimare a costului unei poziții pe consiliu Spre deosebire de șah, în Go este foarte greu de ghicit cine câștigă: alb sau negru Rețeaua de valori rezolvă această problemă învățând să facă o predicție din rezultatul jocului Rețeaua strategică, pe de altă parte, ajută la evaluarea celei mai bune mișcări având în vedere starea actuală a consiliului Combinația acestor două metode cu căutarea arborelui Monte Carlo (metoda clasică de căutare) a ajutat la depășirea factorului de ramificare mare în jocurile Go Arhitectura de bază a programului AlphaGo este prezentată în Fig Rețea strategică Rețea valorică Pa;p(a| ) v (s') S Orez Arhitectura AlphaGo: a - rețeaua strategică pentru alegerea mișcărilor este pregătită inițial pe un set de date de jocuri profesionale; această strategie este apoi rafinată prin auto-joc (MT, auto-învățare cu maximizare a întăririi, CS, auto-învățare supravegheată); b - ambele rețele - de cost și strategic - funcționează cu reprezentări ale terenului de joc | Capitolul Rețele adversare generative Rețelele generative adverse (GAN) sunt un nou tip de rețea profundă care utilizează două rețele neuronale concurente: un generator și un discriminator (o așa-numită rețea adversară) care se unesc într-un duel una împotriva celeilalte Generatorul încearcă să extragă mostre din distribuția de antrenament (de exemplu, încearcă să genereze imagini realiste ale păsărilor) Discriminatorul lucrează pentru a distinge între eșantioanele extrase de generator și eșantioanele de date adevărate (Este o anumită pasăre o imagine reală sau este generată de un generator?) Acest antrenament "adversarial" al GAN-urilor pare să fie capabil să genereze eșantioane de imagini cu o acuratețe semnificativ mai mare decât alte metode și poate fi utilă pentru formarea discriminatorilor eficienți folosind date limitate Arhitectura rețelei GAN este prezentată în Figura Latent Aleatoriu magnitudinea Orez Imagine conceptuală a unei rețele generative adversare GAN-urile s-au dovedit capabile să genereze imagini foarte realiste și par să alimenteze următoarea generație de instrumente de grafică pe computer Calitatea mostrelor din astfel de sisteme se apropie acum de fotorealism Cu toate acestea, multe avertismente teoretice și practice nu au fost încă dezvoltate cu privire la aceste sisteme și rămân multe de explorat Mașini Turing neuronale Marea majoritate a sistemelor de deep learning prezentate până acum au învățat funcții complexe cu aplicații limitate; de exemplu, detectarea obiectelor, subtitrărea imaginilor, traducerea automată sau procesul de redare a Go Dar este chiar posibil să avem arhitecturi profunde care să învețe concepte algoritmice generale precum sortarea, adunarea sau înmulțirea? Introducere în Deep Learning | Neural Turing Machine (NMT) este prima încercare de a crea o arhitectură de învățare profundă capabilă să învețe algoritmi arbitrari Această arhitectură prevede adăugarea unei bănci de memorie externă la un sistem asemănător LSTM, ceea ce permite arhitecturii profunde să folosească spațiul auxiliar pentru a calcula funcții mai sofisticate În acest moment, arhitecturile asemănătoare HMT sunt încă destul de limitate și pot învăța doar algoritmi simpli Cu toate acestea, metodele BMT rămân un domeniu activ de cercetare, iar progresele viitoare pot transforma aceste demonstrații preliminare în instrumente practice de învățare Arhitectura HMT este ilustrată conceptual în fig Orez Imagine conceptuală a mașinii neuronale a lui Turing Adaugă o bancă de memorie externă în care arhitectura profundă realizează operațiuni de citire și scriere Cadre de calcul pentru auto-învățare profundă De zeci de ani, cercetătorii au implementat pachete software pentru a facilita construirea de arhitecturi de rețele neuronale (învățare profundă) Până de curând, aceste sisteme erau în principal pentru scopuri speciale și erau folosite doar în cercurile academice Lipsa unui software standardizat, standard în industrie, îngreunează folosirea pe scară largă a rețelelor neuronale pentru cei care nu sunt experți Această situație s-a schimbat dramatic în ultimii ani În , Google a implementat sistemul DistBelief și l-a folosit pentru a construi și implementa multe arhitecturi de deep learning mai simple Apariția DistBelief și a pachetelor similare, în special Calfe, Theano, Torch, Keras, MxNet etc , a stimulat pe scară largă implementarea lor în industria informațională I Capitolul Biblioteca TensorFlow se bazează pe această istorie intelectuală bogată și se bazează pe unele dintre aceste pachete (Theano în special) de dragul principiilor de proiectare TensorFlow (și Theano), de exemplu, folosesc conceptul de gensoare ca o primitivă fundamentală subiacentă care alimentează sistemele de învățare profundă Accentul pus pe tensori diferențiază aceste pachete de sisteme precum DistBelief sau Caffe, care nu permit acest tip de flexibilitate în construirea modelelor complexe Deși ne vom concentra asupra bibliotecii TensorFlow în capitolele rămase ale cărții, înțelegerea principiilor de bază ar trebui să vă permită să luați ceea ce ați învățat și să îl aplicați aproape fără efort în cadre alternative de învățare profundă Limitări ale mediului de calcul TensorFlow Unul dintre principalele deficiențe actuale ale bibliotecii TensorFlow este că construirea unei noi arhitecturi de învățare profundă este relativ lentă (de ordinul a câteva secunde pentru a inițializa arhitectura) Prin urmare, în TensorFlow este incomod să construiești niște arhitecturi profunde complexe care își schimbă dinamic structura O astfel de arhitectură este TreeLSTM (Figura ), care utilizează analiza arborilor de propoziții în limba engleză pentru a efectua sarcini care necesită înțelegerea limbajului natural Deoarece fiecare propoziție are propriul arbore de analiză, fiecare propoziție necesită o arhitectură ușor diferită Orez Imagine conceptuală a arhitecturii TreeLSTM Forma arborelui este diferită pentru fiecare punct de date de intrare, deci pentru fiecare exemplu este necesar să se construiască un grafic de calcul separat Deși astfel de modele ar putea fi implementate în principiu în TensorFlow, totuși, acest lucru necesită o ingeniozitate considerabilă din cauza limitărilor actualului API TensorFlow Noile cadre de calcul precum Chainer, DyNet și PyTorch promit Introducere în Deep Learning | eliminați aceste bariere, făcând suficient de ușor proiectarea de noi arhitecturi, astfel încât modele precum TreeLSTM să poată fi construite fără dificultate Din fericire, dezvoltatorii TensorFlow lucrează deja la extensii ale API-ului principal TensorFlow (cum ar fi Tensorfiow Eager) care vor facilita construirea de arhitecturi dinamice O concluzie este că progresul în cadrele computaționale de auto-învățare profundă este rapid, iar noul sistem de astăzi ar putea deveni vechea știre de mâine În același timp, principiile fundamentale ale calculului tensorului de bază sunt vechi de secole și vor fi de folos cititorilor, indiferent de schimbările viitoare ale modelelor de programare Această carte se va concentra pe utilizarea bibliotecii TensorFlow ca instrument pentru a dezvolta o înțelegere intuitivă a calculului tensorului de bază rezumat În acest capitol, am explicat de ce auto-învățarea profundă este de o importanță capitală pentru inginerul de software modern și am oferit o scurtă privire de ansamblu asupra unui număr de arhitecturi profunde În următorul capitol, vom începe să învățăm despre TensorFlow, cadrul software Google pentru construirea și antrenamentul arhitecturii profunde În capitolele următoare, vom detalia o serie de exemple practice de arhitecturi profunde Învățarea automată (și în special învățarea profundă), la fel ca cea mai mare parte a informaticii, este o disciplină extrem de empirică Înțelegerea auto-învățarii profunde este cu adevărat posibilă doar prin acumularea unei experiențe practice semnificative Din acest motiv, am inclus o serie de exemple practice aprofundate în restul acestei cărți Vă încurajăm să le înțelegeți și să faceți treaba murdară de a experimenta propriile idei folosind TensorFlow Nu este niciodată suficient să înțelegi algoritmii doar teoretic! I Capitolul CAPITOLUL Introducere în TensorFlow Primitives În acest capitol, veți cunoaște aspectele fundamentale ale bibliotecii TensorFlow Veți învăța cum să efectuați calcule de bază cu el Cea mai mare parte a acestui capitol este dedicată introducerii conceptului de tensori și discutării modului în care tensorii sunt reprezentați și procesați în TensorFlow Luarea în considerare a acestei întrebări va necesita o scurtă trecere în revistă a unora dintre conceptele matematice care stau la baza matematicii tensorale În special, vom arunca o privire rapidă la algebra liniară elementară și vom demonstra cum să efectuați operații de bază de algebră liniară cu TensorFlow Vom însoți prezentarea matematicii elementare luând în considerare diferențele dintre stilurile de programare declarative și imperative Spre deosebire de multe limbaje de programare, biblioteca TensorFlow este în mare parte declarativă Ca urmare a apelării operațiunilor sale, adaugă o descriere a calculului la "graficul de calcul" TensorFlow În special, codul TensorFlow doar "descrie" calculul și nu îl realizează de fapt Pentru a executa codul TensorFlow, utilizatorii trebuie să creeze obiecte tf Session Vom introduce conceptul de sesiuni și vom descrie modul în care utilizatorii ar trebui să efectueze calcule cu ele în TensorFlow Încheiem acest capitol cu o discuție a conceptului de variabile Variabilele din TensorFlow conțin tensori și vă permit să efectuați calcule cu stare care modifică variabilele Vom demonstra cum să creați variabile și să le actualizați valorile folosind TensorFlow Introducere în tensori Tensorii sunt constructe matematice fundamentale în domenii precum fizica și inginerie Cu toate acestea, din punct de vedere istoric, tensorii au făcut mult mai puține incursiuni în informatică, care a fost în mod tradițional mai preocupată de matematică și logică discretă Această stare de lucruri a început să se schimbe semnificativ odată cu apariția învățării automate și dependența acesteia de matematica continuă, vectorială Învățarea automată modernă se bazează pe procesarea și calculul tensoarelor Scalari, vectori și matrici Să începem cu câteva exemple simple de tensori cu care ați putea fi familiarizat Cel mai simplu exemplu de tensor este un scalar, o singură valoare constantă derivată din numere reale (Reamintim că numerele reale sunt numere zecimale cu precizie arbitrară și sunt permise atât numere pozitive, cât și numere negative ) Matematic, notăm numerele reale cu litera R Mai formal, numim un scalar un tensor de rang zero Nota de marja Cititorii sofisticați din punct de vedere matematic vor obiecta că este perfect acceptabil să se definească tensori pe numere complexe sau cu numere binare Într-un caz mai general, este suficient ca numerele să provină dintr-un câmp - o colecție matematică de numere în care sunt definite , , adunarea, înmulțirea, scăderea și împărțirea Câmpurile comune includ numerele reale R, numerele raționale Q, numerele complexe C și câmpuri finite, cum ar fi Z Pentru simplitate, vom folosi tensori reali pentru cea mai mare parte a acestei discuții, dar înlocuirea valorilor din alte câmpuri este perfect rezonabilă Dacă scalarii sunt tensori de rang zero, ce este un tensor de rang ? În mod formal, un tensor de rang este un vector sau o listă de numere reale În mod tradițional, vectorii sunt scriși ca vectori coloană A b sau ca vectori rând [a b] Setul tuturor vectorilor coloană de lungime este notat cu R xl, iar setul tuturor vectorilor rând cu lungimea este notat cu Rlx În termeni mai computaționali, putem spune că forma vectorului coloană este ( , ) și forma vectorului rând este ( , ) Dacă nu dorim să precizăm dacă vectorul este un vector rând sau un vector coloană, atunci putem spune că aparține mulțimii R și are forma ( ) Această noțiune de formă a tensorului este foarte importantă pentru înțelegerea calculului în biblioteca TensorFlow și vom reveni la ea mai târziu în acest capitol Cel mai simplu mod de a folosi vectori este reprezentarea coordonatelor în lumea reală Să presupunem că definim un punct de plecare (să spunem locația în care vă aflați în prezent) Apoi, orice locație din lume poate fi reprezentată prin trei valori de decalaj față de locația dvs curentă (offset stânga-dreapta, offset înainte-înapoi, offset sus-jos) Prin urmare, mulțimea de vectori (spațiul vectorial) R poate reprezenta orice locație din lume I Capitolul Ca un alt exemplu, să presupunem că o pisică poate fi descrisă prin înălțime, greutate și culoare Apoi pisica jocului video poate fi reprezentată ca un vector înălţime greutate culoare în spațiul R Acest tip de reprezentare este adesea numit feature hashing (featurizare) Adică, hashingul caracteristicilor este despre reprezentarea unui obiect real ca un vector (sau, mai general, ca un tensor) Aproape toți algoritmii de învățare automată funcționează cu vectori sau tensori Prin urmare, procesul de hashing a caracteristicilor într-un vector este o parte importantă a oricărei conducte de învățare automată Adesea, un sistem de hashing de la caracteristică la vector poate fi cea mai complexă parte a unui sistem de învățare automată Să presupunem că avem o moleculă de benzen (Figura ) Orez Reprezentarea moleculei de benzen Cum se transformă această moleculă într-un vector potrivit pentru interogarea unui sistem de învățare automată? Există o serie de soluții potențiale la această problemă, marea majoritate a cărora folosesc ideea de a marca prezența subfragmentelor moleculei Prezența sau absența unor subfragmente specifice este marcată prin atribuirea indicilor vectorului binar ({ , }"), respectiv valorilor / Acest proces este prezentat în Figura Vă rugăm să rețineți că acest proces pare (și este) destul de complicat De fapt, unul dintre cele mai dificile aspecte ale construirii unui sistem de învățare automată este să decizi cum să transformi datele într-un format tensor Pentru unele tipuri de date, această conversie este evidentă Pentru altele (cum ar fi molecule), transformarea necesară poate fi destul de subtilă În general, un practicant de învățare automată nu are nevoie să inventeze o nouă metodă de hashing a caracteristicilor, deoarece literatura științifică este extinsă, dar este adesea necesar să citească lucrări de cercetare pentru a înțelege cele mai bune practici pentru transformarea unui nou flux de date Introducere în TensorFlow Primitives | Orez Selectarea subfragmentelor unei molecule pentru a crea caracteristici (cele care conțin OH) Aceste fragmente sunt indexate în indici vectori cu lungime fixă Aceste poziții au valoarea , iar toate celelalte au valoarea Acum că am stabilit că tensorii de rang zero sunt scalari (R) și tensorii de rang sunt vectori (R"), trebuie să aflăm ce este un tensor de rang ? În mod tradițional, un tensor de rangul este o matrice a b c d Această matrice are două rânduri și două coloane Mulțimea tuturor acestor matrici este notată cu R x Revenind la noțiunea noastră despre forma unui tensor, forma acestei matrice este ( , ) Matricele sunt folosite în mod tradițional pentru a reprezenta transformări ale vectorilor De exemplu, rotirea unui vector pe un plan printr-un unghi a poate fi realizată printr-o astfel de matrice: cosa-șina șina cosa Pentru a vedea acest lucru, rețineți că vectorul unitar [ ] este transformat prin multiplicarea matricei în vectorul [cosa șina] (Ne vom uita la definiția detaliată a înmulțirii matricelor mai târziu în acest capitol, dar pentru moment, vom arăta doar rezultatul ) cosa-șina 'g cosa șina cosa șina I Capitolul Orez Pozițiile pe cercul unității sunt parametrizate prin cosinus și sinus Această transformare poate fi vizualizată și grafic Pe fig Figura arată cum vectorul rezultat corespunde cu rotația vectorului unitar original Matematică matrice Există o serie de operații matematice standard pe matrice pe care programele de învățare automată le folosesc în mod repetat Vom trece în revistă pe scurt câteva dintre cele mai fundamentale dintre aceste operațiuni Transpunerea matricei este o operație convenabilă care întoarce o matrice în jurul diagonalei sale Fie A o matrice Atunci matricea transpusă Ar este determinată de relația a]-ajtx De exemplu, matricea de rotație transpusă Ra este: cosa șina -șina cosa Adunarea matricelor este definită numai pentru matrice de aceeași formă și se realizează element cu element De exemplu, G G + " În mod similar, matricele pot fi înmulțite cu scalari În acest caz, fiecare element al matricei este înmulțit cu scalarul în cauză: G " Aici ay este un element al matricei A în rândul /'-lea și coloana j-a - Aprox ed Introducere în TensorFlow Primitives | Uneori puteți înmulți direct două matrici Conceptul de multiplicare matrice este probabil cel mai important concept matematic legat de matrice Înmulțirea matricei nu este același lucru cu înmulțirea matricei în funcție de elemente! Să presupunem că avem o matrice A de formă (m, n) cu n rânduri și n coloane Atunci A poate fi înmulțit drept cu orice matrice B de forma (u, k) (unde k este orice număr întreg pozitiv) pentru a forma o matrice AB de forma (m, k) În scopul descrierii matematice actuale, să presupunem că A este matricea formei (w, u) și B este matricea formei (n, k) Atunci produsul matricelor AB este determinat de următoarea relație: (ab)v • La Mai devreme am arătat ecuația de multiplicare a matricei Având o definiție formală, să extindem acum acest exemplu: cosa -șina 'Г cosa -sina- cosa șina cosa sinal + cosa- șina Regula de bază a înmulțirii matricelor este că rândurile unei matrice sunt înmulțite cu coloanele altei matrice Această definiție ascunde o serie de subtilități Rețineți că înmulțirea matriceală nu este comutativă Adică în cazul general AB BA De fapt, AB poate exista atunci când BA nu este posibil Să presupunem, de exemplu, că A este o matrice de formă ( , ) și B este o matrice de formă ( , ) Atunci AB este o matrice de forma ( , ) Cu toate acestea, VA nu este definită deoarece dimensiunile corespunzătoare ( și ) nu se potrivesc Ca o altă subtilitate, observăm că, ca și în exemplul de rotație, matricea formei (w, ri) poate fi înmulțită în partea dreaptă cu matricea formei (u, ) Cu toate acestea, matricea de formă (u, ) este doar un vector coloană Prin urmare, are sens să înmulțim matrice cu vectori Înmulțirea matrice-vector este unul dintre elementele fundamentale ale sistemelor universale de învățare automată Una dintre cele mai frumoase proprietăți ale înmulțirii standard este că este o operație liniară O funcție f se numește liniară dacă f(x + y) = f(x) + f(y) și f(cx) = cf(x), unde c este scalar Pentru a demonstra că înmulțirea scalară este liniară, să presupunem că a, b, c, d sunt numere reale Atunci noi avem: a(c + d) = ac + a-d Aici folosim proprietățile comutative și distributive ale înmulțirii scalare Acum să presupunem că A, C, D sunt acum matrici, unde C și D au aceeași dimensiune și puteți înmulți A de la dreapta cu C sau D (b rămâne un număr real) Atunci înmulțirea matricei este un operator liniar: I Capitolul A-(Z>C) = (AC); A (C + D) = AC + AD Cu alte cuvinte, înmulțirea matriceală este distributivă și comută cu înmulțirea scalară Se poate arăta că orice transformare liniară pe vectori corespunde înmulțirii matriceale Ca o analogie informatică, gândiți-vă la o transformare liniară ca la o metodă abstractă într-o superclasă Apoi, înmulțirea standard și înmulțirea matricelor sunt implementări concrete ale acestei metode abstracte pentru diferite subclase (numere reale și, respectiv, matrice) Tensori În secțiunile anterioare, am introdus conceptul de scalari ca tensori de rang zero, vectori ca tensori de rang și matrice ca tensori de rang Ce este atunci un tensor de rangul ? Înainte de a trece la o definiție generală, luați în considerare aspectele comune ale scalarilor, vectorilor și matricelor Scalarii sunt numere simple Vectorii sunt liste de numere Pentru a selecta orice element al vectorului, trebuie să cunoașteți indicele acestuia Prin urmare, avem nevoie de un element index pe vector (tensor de rang ) Matricele sunt tabele de numere Pentru a selecta un anumit element al matricei, trebuie să cunoașteți rândul și coloana acestuia Deci avem nevoie de două elemente de index (tensor de rangul ) De aici rezultă în mod firesc că tensorul rangului al -lea este un set de numere, unde există trei indici obligatorii Este indicat să se reprezinte tensorul rangului sub forma unui paralelipiped (Fig ) Orez Un tensor de rang poate fi vizualizat ca o casetă Tensorul de rang al treilea T prezentat în figură are forma lor și Un element arbitrar al tensorului este ales prin specificarea unui triplu de numere (/, y, k) ca indici Există o legătură între tensori și forme Un tensor de rang are o formă de dimensiune , un tensor de rang are o formă de dimensiune , iar un tensor de rang are o formă de dimensiune Ați putea argumenta că acest lucru contrazice discuția noastră anterioară despre vectorii rând și vectorii coloană După definiția noastră Introducere în TensorFlow Primitives | Intuitiv, vectorul coloană are forma (u, ) Nu ar face ca vectorul coloană să fie un tensor (sau matrice) de rang ? Exact asta sa întâmplat Reamintim că un vector care nu este specificat ca vector rând sau coloană are forma (n) Când specificăm că un vector este un vector rând sau un vector coloană, specificăm de fapt o metodă de conversie a vectorului de bază într-o matrice Acest tip de expansiune dimensională este o tehnică comună de prelucrare a tensoriilor Rețineți că există o altă modalitate de a reprezenta un tensor de rang , care este o listă de matrici cu aceeași formă Să presupunem că W este o matrice cu forma (u, u) Atunci tensorul Tyil = [W] W"] este format din n copii ale matricei W Este demn de remarcat faptul că o imagine alb-negru poate fi reprezentată de un tensor de rang Să presupunem că avem o imagine alb-negru de x pixeli Apoi elementul (/,/) este egal cu sau, respectiv, , codând astfel un pixel alb-negru Rezultă că o imagine alb-negru poate fi reprezentată ca o matrice a formei ( , ) Acum luați în considerare o imagine color de x Culoarea dintr-un pixel dat este de obicei reprezentată de trei canale RGB separate Adică, un pixel (r, j) este reprezentat ca un tuplu de numere (r, g, b) care codifică cantitatea de roșu, verde și, respectiv, albastru din pixel Valorile g, g, b sunt de obicei numere întregi de la la Rezultă că o imagine color poate fi codificată ca un tensor de rangul al formei ( , , ) Continuând analogia, luați în considerare videoclipul color Să presupunem că fiecare cadru video este o imagine color de x Atunci un minut de videoclip (la de cadre pe secundă) ar fi un tensor de rangul al formei ( , , , ) O colecție de astfel de videoclipuri va forma apoi un tensor de rang al formei ( , , , , ) În general, tensorii oferă o reprezentare convenabilă a datelor numerice În practică, nu este obișnuit să vedeți tensori peste rangul , dar este înțelept să proiectați software pentru orice tensoare pentru a permite tensori arbitrari, deoarece utilizatorii plini de resurse vor veni întotdeauna cu cazuri de utilizare pe care designerii nu le iau în considerare Tensori în fizică Tensorii sunt folosiți pe scară largă în fizică pentru a codifica mărimi fizice fundamentale De exemplu, tensorul tensiunii este folosit în mod obișnuit în știința materialelor pentru a specifica tensiunea într-un punct dintr-un material Din punct de vedere matematic, tensorul tensiunii este un tensor de rangul doi de forma ( , ): * *iz' R Această definiție folosește o serie de termeni pe care poate nu i-ați întâlnit Un spațiu vectorial este pur și simplu o colecție de vectori Ați văzut mai multe exemple de spații vectoriale, cum ar fi R sau, în general, R" Nu pierdem universalitatea spunând că ѵ, = RJ' După cum am definit mai devreme, funcția f este liniară dacă /(* + > >) = / (*) + /(y) și /(cx) = import tensorfiow ca tf "> tf InteractiveSession() Restul codului din această secțiune presupune că a fost încărcată o sesiune interactivă Inițializarea tensoarelor constanți Până acum, am discutat tensorii ca entități matematice abstracte Cu toate acestea, un sistem precum biblioteca TensorFlow trebuie să ruleze pe un computer real, astfel încât orice tensori trebuie să existe în memoria RAM a computerului pentru a fi util programatorilor de computere Biblioteca TensorFlow oferă o serie de funcții care implementează tensori de bază în memorie Cele mai simple dintre acestea sunt tf zerosO și tf onesO Funcția tf zerosO ia forma unui tensor (reprezentat ca un tuplu Python) și returnează Consultați https://www tensorflow org/install/install windows - Aprox pe Introducere în TensorFlow Primitives | un tensor al formei date umplut cu zerouri Să încercăm să apelăm această comandă în shell (exemplul ) Exemplul Crearea unui tensor de zerouri "> tf zeros( ) ctf Tensor 'zeros: ' shape=( ,) dtype=float > TensorFlow nu returnează valoarea tensorului în sine, ci o referință la tensorul dorit Pentru a returna forțat valoarea unui tensor, vom folosi metoda tf Tensor evai pe obiecte tensor (exemplul ) Din moment ce am initializat tf interactiveSession(), această metodă ne va returna valoarea tensorului de zerouri I Exemplul Calcularea valorii unui tensor ">a=tf zeros( ) "> a eval() matrice([ O , O ], dtype=float ) Rețineți că valoarea calculată a unui tensor TensorFlow este în sine un obiect Python În special, a evaio este un obiect numpy ndarray NumPy este un sistem de numere complex sub forma unei biblioteci software Python Nu vom aprofunda aici biblioteca NumPy, dincolo de a remarca faptul că TensorFlow este proiectat să fie în mare măsură compatibil cu convențiile NumPy Putem apela metodele tf zerosO și tf oneso pentru a crea și afișa tensori de diferite dimensiuni (Exemplul - ) Exemplul Calculul și afișarea tensoarelor pe ecran >> a = tf zerouri (( , )) "> a eval() matrice([[ O , , O ], [ , , ]], dtype=float ) " > b = tf uni (( , , )) "> b eval() matrice([[[ , ], [unsprezece ]], [[ unsprezece ], [ , ]]], dtype=float ) Ce se întâmplă dacă avem nevoie de un tensor umplut cu o altă valoare decât / ? Funcția tf fiii oferă o formă scurtă bună pentru aceasta (Exemplul ) I Capitolul i Exemplul Umplerea tensoarelor cu valori arbitrare "> b = tf fiii(( , ), valoare= ) >" b eval() matrice([[ , ], [ , ]], dtype=float ) tf constant(r) este o altă funcție, similară cu tf fiiii(r), care vă permite să construiți tensori care nu ar trebui să se schimbe în timpul execuției programului (Exemplul - ) I Exemplul Crearea de tensori constanți ">a=tf constant( ) "> a eval() Selectarea valorilor aleatorii pentru tensori În timp ce lucrul cu tensori constanți este util pentru testarea ideilor, este mult mai obișnuit să inițializați tensorii cu valori aleatorii Cel mai obișnuit mod de a face acest lucru este de a eșantiona fiecare valoare din tensor dintr-o distribuție aleatorie Funcția tf random normal vă permite să selectați fiecare valoare dintr-un tensor al unei forme date dintr-o distribuție normală cu o medie și o abatere standard dată (Exemplul ) Ruperea simetriei Mulți algoritmi de învățare automată învață prin actualizarea unui set de tensori care conțin ponderi Aceste ecuații de actualizare urmează, în general, proprietatea că ponderile inițializate la aceeași valoare vor continua să evolueze împreună Prin urmare, dacă setul inițial de tensori este inițializat la o valoare constantă, atunci modelul nu va putea învăța prea multe Pentru a corecta situația, este necesară ruperea simetriei Cel mai simplu mod de a rupe simetria este de a selecta aleatoriu valori pentru fiecare intrare din tensor I Exemplul Selectarea valorilor aleatorii pentru un tensor dintr-o distribuție normală "> a = tf aleatoriu normal (( , ), medie= , stddev=l) "> a eval() matrice([[- , , - , ], [ , , , ]], dtype=float ) Trebuie remarcat faptul că sistemele de învățare automată folosesc adesea tensori foarte mari care au zeci de milioane de parametri Când batem Introducere în TensorFlow Primitives | Având în vedere zeci de milioane de valori aleatorii dintr-o distribuție normală, este aproape sigur că unele valori selectate vor fi departe de medie Eșantioane atât de mari pot duce la instabilitate numerică, deci este obișnuită înlocuirea tf-ului random nomai () efectuează selecția folosind funcția tf truncated normai o Această funcție se comportă în termeni API la fel ca funcția tf random nomai(), dar elimină și reselege toate valorile care sunt mai mari de două abateri standard de la medie Funcția tf random uniform() se comportă ca funcția tf random normai(), cu excepția faptului că valorile aleatoare sunt selectate dintr-o distribuție uniformă într-un interval dat (Exemplul ) Exemplul Selectarea valorilor aleatorii pentru un tensor dintr-o distribuție uniformă "> a = tf random uniform(( , ), minval=- , maxval= ) "> a eval() matrice([[- , ], [ , , , ]], dtype=float ) Adunarea și scalarea tensoarelor Biblioteca TensorFlow folosește supraîncărcarea operatorului Python pentru a simplifica aritmetica tensorală de bază folosind operatori Python standard (Exemplul ) ^ Exemplul Adăugarea tensoarelor >" c = tf one(( , )) "> d = tf one(( , )) "> e = c + d >> e eval() matrice([[ , ], [ , ]], dtype=float ) "> f = * e "> f eval() matrice([[ , ], [ , ]], dtype=float ) În același mod, tensorii pot fi înmulțiți Vă rugăm să rețineți că atunci când înmulțim doi tensori, nu obținem o înmulțire matriceală, ci o înmulțire în funcție de elemente, ceea ce poate fi văzut în mod clar în Exemplul [Exemplu Înmulțirea tensoarelor pe elemente ( - - ~ - - "> c = tf fill(( , ), ) "> d = tf fiii (( , ), ) " > e = c * d | Gpava "> matrice e eval()([[ , ], [ , ]], dtype=float ) Operații cu matrice Biblioteca TensorFlow oferă o serie de facilități pentru lucrul cu matrice (Matricele sunt, de departe, cel mai comun tip de tensori folosiți în practică ) În special, TensorFlow oferă forme scurte pentru crearea anumitor tipuri de matrice utilizate în mod obișnuit Poate cea mai utilizată este matricea de identitate Matricea de identitate este o matrice pătrată ale cărei elemente sunt peste tot, cu excepția diagonalei principale, unde sunt Funcția tf eyeo vă permite să construiți rapid matrici de identitate de dimensiunea dorită (Exemplul ) Exemplul Crearea unei matrice de identitate "> a = tf eye( ) "> a matrice eval()([[ O O O Oh oh oh , O , ], ], ], ]], dtype=float ) Matricele diagonale sunt un alt tip comun de matrice La fel ca matricele de identitate, matricele diagonale sunt diagonal nenule Spre deosebire de matricele de identitate, acestea pot lua valori arbitrare de-a lungul diagonalei Să construim o matrice diagonală cu valori crescătoare de-a lungul diagonalei (exemplul ) În primul rând, avem nevoie de o metodă pentru construirea unui vector de valori crescătoare în TensorFlow Cel mai simplu mod de a face acest lucru este să apelați funcția tf range{start, range, delta) Observați că valoarea de frontieră este exclusă din interval, iar delta este dimensiunea pasului pentru a ocoli intervalul Vectorul rezultat poate fi apoi trecut la intrarea funcției tf diag(diagonală) care va construi o matrice cu o diagonală dată Exemplul Crearea unei matrice diagonale "> r = tf range( , , ) "> d eval() arr([ , , , ], dtype=int ) "> d = tf diag(r) "> matrice d eval()([[l, , [ , , [ , , [ , , oh oh , oh ], ], ], ]], dtype=int ) Introducere în Tensorflow Primitive | Acum să presupunem că avem o matrice bine definită în TensorFlow Cum se obține matricea transpusă? Funcția tf matrix transpus funcționează impecabil (Exemplul ) Exemplul Obținerea matricei transpuse "> a = tf one(( , )) "> a eval() matrice([[ , , ], [ , , ]], dtype=float ) ">at=tf matrix transpose(a) ">at eval() matrice([[ , ], [lz ], [ , ]], dtype=float ) Acum să presupunem că avem câteva matrice pe care am dori să le înmulțim folosind înmulțirea matricelor Cel mai simplu mod de a face acest lucru este să apelați funcția tf matmui (Exemplul - ) i Exemplul Efectuarea înmulțirii matricelor "> a = tf one(( , )) "> a eval() matrice([[ , , ], [ , , ]], dtype=float ) "> b = tf one(( , )) "> b eval() matrice([[ , , , ], [ , , , ], [ , , , ]], dtype=float ) "> c = tf matmui(a,b) "> c evalO matrice([[ , , , ], [ f , , ]], dtype=float ) Puteți verifica dacă acest răspuns se potrivește cu definiția matematică a înmulțirii matriceale pe care am oferit-o mai devreme Tipuri de tensori Este posibil să fi observat notația dtype în exemplele anterioare Tensorii din TensorFlow vin în diferite tipuri, cum ar fi tf float , tf float , tf int , tf int Tensorii unui anumit tip pot fi creați prin alocarea unui dtype în funcția de construcție a tensorului Mai mult, pentru un tensor dat, de la I Capitolul schimbați-i tipul utilizând funcția de turnare a tipului, cum ar fi tf to doubleO, tf,to fioat(), tf to int (), tf to int (r) etc (exemplul ) j Exemplul Crearea de tensori de diferite tipuri ">a=tf ones(( , ), dtype=tf int )>"a eval() matrice([[ , ], [ , ]], dtype=int ) "> b = tf a pluti(a) "> b eval() matrice([[ , ], [ , ]], dtype=float ) Manipularea formelor tensoarelor În TensorFlow, tensorii sunt pur și simplu colecții de numere stocate în memorie, iar diferitele forme sunt reprezentări ale setului de numere subiacent Ele oferă diferite moduri de a interacționa cu acest set de numere În momente diferite, poate fi util să privim același set de numere ca formarea de tensori cu forme diferite Funcția tf reshapeO vă permite să convertiți tensori în tensori de altă formă (Exemplu ) Exemplul Manipularea formei tensoarelor "> a = tf one( ) "> a eval() matrice([ , , , , , , , ], dtype=float ) "> b = tf reshape(a, ( , )) "> b eval() matrice([[ , ], [unsprezece ], [unsprezece ], [ , ]], dtype=float ) "> c = tf reshape(a, ( , , )) "> c eval() matrice([[ [ , ], [unsprezece ]], [[ unsprezece ], [ , ]]], dtype=float ) Observați cum puteți utiliza funcția tf reshapeO pentru a transforma tensorul original de rang într-un tensor de rang și apoi într-un tensor de rang În timp ce toate manipulările necesare formei pot fi efectuate cu tf reshapeO, uneori poate fi convenabil să efectuați o manipulare mai simplă a formei folosind funcții precum tf expand dims() sau tf squeeze() Funk Introducere în TensorFlow Primitives | Opțiunea tf expand dims adaugă tensorului o nouă dimensiune de dimensiune Acest lucru este util pentru creșterea rangului tensorului cu unul (de exemplu, când se convertește un vector st ang într-un vector rând de rang sau un vector coloană) Funcția tf squeezeo elimină dintr-un tensor toate dimensiunile de dimensiunea Această metodă este utilă atunci când trebuie să convertiți un vector rând sau coloană într-un vector plat Astfel, există o oportunitate convenabilă de a se familiariza cu metoda tf Tensor get shapeO (Exemplul ) Această metodă permite utilizatorilor să interogheze forma tensorului Exemplul Obținerea formei unui tensor >" a=tf ones( ) "> a get shape() TensorShape([Dimensiunea( ) ]) "> a eval() matrice([ , ], dtype=float ) "> b = tf expand-dims(a, ) "> b get shape() TensorShape([Dimensiunea( ), Dimensiunea( )]) "> b eval() matrice([[ , ] ], dtype=float ) >> c = tf expand dims(a, ) "> c get shape() TensorShape([Dimensiunea( ), Dimensiunea( )]) "> c eval() matrice([[ ], [ ]], dtype=float ) ">d=tf squeeze(b) >> d get shape() TensorShape([Dimensiunea( )]) ">d eval() matrice([ , ], dtype=float ) Introducere în operarea de difuzare Traducerea este un termen (introdus în biblioteca NumPy) care este folosit pentru operațiuni care vă permit să adăugați împreună matrice de sistem tensor și vectori de dimensiuni diferite Regulile de traducere permit facilități precum adăugarea unui vector la fiecare rând al unei matrice Aceste reguli pot fi destul de complexe, așa că nu ne vom scufunda într-o discuție oficială despre ele Este adesea mai ușor să experimentați și să vedeți cum funcționează traducerea în practică (Exemplul ) I Capitolul Exemplul Exemple de difuzare "> a = tf one(( , )) "> a eval() matrice([[ , ], [ , ]], dtype=float ) "> b = tf range( , , , dtype=tf float ) "> b eval() matrice([ , ], dtype=float ) "> c = a + b "> c eval() matrice([[ , ], [ , ]], dtype=float ) Rețineți că vectorul b este adăugat la fiecare rând al matricei a De asemenea, rețineți o altă subtilitate: setăm în mod explicit dtype pentru b Dacă dtype nu este setat, atunci TensorFlow va raporta o eroare de tip Să vedem ce s-ar întâmpla dacă nu am specifica un dtype (Exemplu - ) Exemplul TensorFlow nu face modele implicite, | afișarea unui mesaj de nepotrivire de tip j "> b = tf range( , , ) "> b eval() matrice([ , ], dtype=int ) "> c = a + b ValueError: conversia tensorului a fost solicitată dtype float pentru Tensor cu dtype int : "Tensor("range : ", shape=( ,), dtype=int ) Spre deosebire de limbaje precum C, TensorFlow nu face casting implicit în culise Adesea, atunci când se efectuează operații aritmetice, este necesar să se efectueze conversii explicite de tip Programare imperativă și declarativă Majoritatea situațiilor din informatică implică programare imperativă Luați în considerare un program Python simplu (Exemplul ) Exemplul Program Python care efectuează în mod obligatoriu adăugarea J "> a = ">b= "> c = a + b "> cu Introducere în TensorFlow Primitives | Acest program, atunci când este tradus în codul mașinii, instruiește mașina să efectueze operațiile primitive de adăugare a două registre, unde unul conține și celălalt Rezultatul este Acest stil de programare se numește imperativ deoarece programul îi spune în mod explicit computerului ce trebuie să facă Un stil de programare alternativ este declarativ Într-un sistem declarativ, un program de calculator este o descriere de nivel înalt a calculului care trebuie efectuat Această descriere nu spune computerului exact cum să efectueze calculele Exemplul este echivalentul TensorFlow al Exemplului , Exemplul Programul TensorFlow efectuează declarativ adăugarea I L - I ">a=tf constant( ) "> b = tf constant( ) >> c \u d a + b "> cu ctf Tensor 'add l: ' shape=() dtype=int > "> c eval() Rețineți că valoarea lui c nu este egală cu ! Dimpotrivă, este un tensor simbolic Această bucată de cod definește calculul adunării a două valori împreună pentru a crea un nou tensor Calculul propriu-zis nu se efectuează până nu numim metoda c emailo În secțiunile anterioare, am folosit metoda еѵаі() pentru a modela stilul imperativ în TensorFlow, deoarece programarea declarativă poate fi greu de înțeles la început Cu toate acestea, programarea declarativă nu este în niciun caz un concept necunoscut pentru ingineria software Bazele de date relaționale și SQL sunt exemple de sistem de programare declarativ utilizat pe scară largă Comenzi precum select și join pot fi implementate în mod arbitrar în spatele scenei, cu condiția ca semantica lor de bază să fie urmată Codul programului din TensorFlow este cel mai bine privit ca fiind analog cu programele SQL; Codul TensorFlow definește calculul care trebuie efectuat, iar detaliile acestora sunt lăsate la TensorFlow În culise, dezvoltatorii TensorFlow exploatează această lipsă de detaliu pentru a adapta stilul de execuție al codului la hardware-ul utilizat, fie că este vorba despre un CPU (unitate centrală de procesare), GPU (unitate de procesare grafică) sau un dispozitiv mobil Este important de reținut că principala slăbiciune a programării declarative este că această abstractizare este adesea destul de plină de găuri De exemplu, fără o înțelegere clară a implementării de bază a unei baze de date relaționale, programele SQL lungi pot deveni insuportabil de ineficiente La fel, | Gpava este puțin probabil ca programele mari TensorFlow implementate fără a înțelege algoritmii de învățare de bază În restul acestei secțiuni, vom începe să defalcăm această abstractizare, un proces pe care îl vom urma în continuare pe tot restul cărții Modulul TensorFlow Eager Echipa de dezvoltare TensorFlow a adăugat recent un nou modul experimental, TensorFlow Eager, care permite utilizatorilor să efectueze în mod imperativ calculele TensorFlow În timp, acest modul va deveni probabil cel preferat pentru atragerea de noi programatori care învață TensorFlow Cu toate acestea, la momentul scrierii acestei cărți, acest modul este încă destul de grosolan, cu multe deficiențe Din acest motiv, nu vă vom introduce în modul Eager, dar vă recomandăm să vă referiți singur la el Este important de subliniat faptul că marea majoritate a TensorFlow va rămâne declarativă chiar și după ce modulul Eager este construit, așa că merită să înveți TensorFlow declarativ, indiferent de ce Grafice TensorFlow Orice calcul în TensorFlow este reprezentat ca o instanță a unui grafic de calcul tf Graph Un astfel de grafic este format din multe instanțe ale obiectelor tf Tensor și tf Operation Ne-am uitat la obiectul tf Tensor, dar ce sunt exact obiectele tf Operation? I-ați întâlnit deja în acest capitol Apelarea unei operații precum tf matmui creează o instanță a tf Operation pentru a marca necesitatea de a efectua o operație de multiplicare a matricei Când un grafic tf Graph nu este setat în mod explicit, TensorFlow adaugă tensori și operații la o instanță globală ascunsă a tf Graph Această instanță poate fi preluată folosind funcția tf get default graph() (Exemplul - ) ^ Exemplul Obținerea graficului TensorFlow implicit j "> tf get default graph() Este posibil să specificați că operațiunile TensorFlow ar trebui să ruleze pe alte grafice decât cele implicite Vom demonstra astfel de exemple în capitolele următoare Sesiuni TensorFlow În TensorFlow, obiectul tf Session() stochează contextul în care este efectuat calculul La începutul acestui capitol, am folosit tf interactiveSessionO pentru a configura mediul pentru toate calculele TensorFlow Această provocare a creat o strălucire ascunsă Introducere în TensorFlow Primitives | contextul punctajului pentru toate calculele efectuate Apoi am folosit metoda tf Tensor eval pentru a efectua calculele noastre DECLARAT DESCRISE În culise, acest apel este evaluat în contextul obiectului global ascuns tf sessiono Poate fi adesea convenabil (și adesea necesar) să folosiți un context explicit în loc de un context de evaluare ascuns (Exemplul ) : Exemplul Gestionarea explicită a sesiunilor TensorFlow "> sess = tf SessionO "> a = tf one(( , )) "> b = tf matmul(a,a) "> b eval(session=sess) matrice([[ , ], [ , ]], dtype=float ) Acest fragment de cod evaluează ь în contextul sesiunii în loc de sesiunea globală ascunsă De fapt, putem face acest lucru mai explicit folosind o notație alternativă (Exemplul ) I Exemplul Efectuarea unui calcul într-o sesiune ">sess run(b) matrice([[ , ], [ , ]], dtype=float ) De fapt, apelarea b eval (session=sess) este zahărul sintactic pentru apelarea sess alerga(b) Toate aceste informații pot arăta uneori ca niște sofisme Ce diferență are în ce sesiune se află jocul, având în vedere că toate metodele diferite par să returneze același răspuns? Sesiunile explicite nu intră în joc până când nu începeți să faceți calcule cu stare, despre care veți afla în secțiunea următoare Variabile TensorFlow Toate exemplele de cod din această secțiune au folosit tensori constanți Deși am putea combina și recombina acești tensori în orice fel, nu am putea schimba în niciun fel valoarea tensoarelor în sine (doar să creăm noi tensori cu noi valori) Până în acest moment, stilul de programare a fost funcțional și apatrid În timp ce calculul funcțional este foarte util, învățarea automată se bazează adesea în mare măsură pe calculul cu stare Algoritmii de învățare sunt în esență reguli pentru actualizarea tensoarelor stocate pentru a explica datele furnizate Dacă nu există nicio modalitate de a actualiza acești tensori stocați, atunci va fi dificil de învățat I Capitolul Obiectul tf variable oferă un înveliș în jurul tensoarelor care vă permite să efectuați calcule cu stare Obiectele variabile servesc drept containere pentru tensori Crearea unei variabile este destul de simplă (exemplul ) Exemplul Crearea unei variabile TensorFlow "> a = tf Variable(tf one(( , ))) "> a Ce se întâmplă când încercăm să evaluăm variabila a ca un tensor, ca în Exemplul ? I Exemplul Evaluarea variabilelor neinițializate a eșuat i cu eroarea "încercați să utilizați o variabilă neinițializată" "> a eval() FailedPreconditionError: Încercarea de a utiliza valoarea neinițializată Variabila Calculul nu este efectuat deoarece variabilele trebuie inițializate explicit Cel mai simplu mod de a inițializa toate variabilele este să apelați funcția tf global variabies initiaiizer() Efectuarea acestei operații într-o sesiune inițializează toate variabilele din program (Exemplul - ) i Exemplul Calculul variabilelor initializate "> sess = tf SessionO ">sess run(tf global variables initializer()) "> a eval(session=sess) matrice([[ , ], [ , ]], dtype=float ) După inițializare, putem obține valoarea stocată în variabilă ca și cum ar fi un tensor obișnuit Până acum, variabilele au fost puțin diferite de tensorii simpli Variabilele devin interesante doar atunci când le putem atribui Funcția tf assigno vă permite să faceți acest lucru Cu funcția tf assigno, putem actualiza valoarea unei variabile existente (Exemplu - ) I Exemplul Atribuirea de valori variabilelor "> sess run(a assign(tf zeros ( ( , ))) ) matrice([[ , ], [ , ]], dtype=float ) "> sess run(a) matrice([[ , ], [ , ]], dtype=float ) Introducere în TensorFlow Primitives | Ce se întâmplă dacă încercați să atribuiți o valoare unei variabile care nu are forma ( , )? Să ne uităm la exemplul "Exemplu Atribuirea eșuează atunci când formele nu sunt egale cu i ">sess run(a assign(tf zeros(( , )))) ValueError: Dimensiunea în ambele forme trebuie să fie egală, dar sunt și pentru "Assign " (op: "Assign") cu forme de intrare: [ , ], [ , ] Vedeți că TensorFlow se plânge Forma unei variabile este fixată la inițializare și trebuie păstrată în timpul actualizărilor Și iată o altă notă interesantă: funcția tf assigno în sine face parte din instanța globală subiacentă a graficului de calcul tf Graph Acest lucru permite programelor TensorFlow să-și actualizeze starea internă la fiecare execuție Vom folosi pe scară largă această funcționalitate în capitolele următoare rezumat În acest capitol, am introdus conceptul matematic de tensori și am trecut în revistă pe scurt o serie de concepte matematice legate de tensori Apoi am demonstrat cum să creăm tensori în TensorFlow și să efectuăm aceleași operații matematice în TensorFlow De asemenea, am introdus pe scurt câteva dintre structurile de bază ale TensorFlow, cum ar fi graficul de calcul, sesiunile și variabilele Dacă nu ați înțeles pe deplin conceptele discutate în acest capitol, nu vă faceți griji Le vom folosi în mod repetat de-a lungul întregii cărți, așa că veți avea multe oportunități de a absorbi aceste idei În următorul capitol, vă vom învăța cum să construiți modele simple de învățare pentru regresia liniară și logistică folosind TensorFlow Capitolele următoare se vor construi pe această bază pentru a vă învăța cum să antrenezi modele mai complexe I Capitolul CAPITOLUL Regresia liniară și logistică cu TensorFlow În acest capitol, vom arăta cum să construim exemple simple, dar netriviale de sisteme de învățare în TensorFlow La începutul acestui capitol sunt discutate bazele matematice ale construirii sistemelor de învățare și, în special, se vor lua în considerare funcțiile, continuitatea și diferențiabilitatea acestora Vom introduce conceptul de funcții de pierdere și apoi vom discuta despre modul în care învățarea automată se rezumă în esență la capacitatea de a găsi punctele minime ale funcțiilor complexe de pierdere Apoi vom explora conceptul de coborâre a gradientului și vom explica cum să îl folosim pentru a minimiza funcțiile de pierdere Încheiem cu o scurtă discuție despre ideea algoritmică a diferențierii automate A doua secțiune este despre introducerea conceptelor TensorFlow susținute de idei matematice Aceste concepte includ substituenți, spații de nume, optimizatori și pachetul de vizualizare TensorBoard și creează scena pentru construirea și analiza practică a sistemelor de învățare Secțiunea finală oferă exemple practice de antrenare a modelelor de regresie liniară și logistică în TensorFlow Capitolul este lung și introduce multe idei noi Este destul de normal dacă nu înțelegeți toate complexitățile ideilor de la prima lectură Vă recomandăm să mergeți mai departe și să revizuiți conceptele de aici mai târziu, dacă este necesar Vom folosi principiile fundamentale din nou și din nou în restul cărții pentru a vă oferi oportunitatea de a interioriza treptat aceste idei Revizuire matematică Această secțiune discută instrumentele matematice necesare pentru a conceptualiza învățarea automată Vom încerca să minimizăm numărul de caractere grecești necesare și, în schimb, ne vom concentra în primul rând pe construirea înțelegerii conceptuale, mai degrabă decât pe manipularea tehnică Funcții și diferențiere Această secțiune oferă o scurtă prezentare a conceptelor de funcții și diferențiere Funcția f este o regulă care transformă intrarea în ieșire Funcțiile există în toate limbajele de programare, iar definiția matematică a unei funcții nu este mult diferită Cu toate acestea, funcțiile matematice utilizate pe scară largă în fizică și inginerie, au alte proprietăți importante, cum ar fi continuitatea și diferențiabilitatea O funcție continuă, aproximativ vorbind, este o funcție care poate fi desenată fără a ridica creionul de pe hârtie, așa cum se arată în Fig (Desigur, aceasta nu este o definiție tehnică, dar surprinde spiritul proprietății de continuitate ) Orez Funcții continue multiple Diferențiabilitatea este o proprietate a netezirii funcțiilor Ea spune că colțurile ascuțite sau îndoirile în funcție nu sunt permise (Figura ) Orez Funcție diferențiabilă Avantajul cheie al funcțiilor diferențiabile este că putem folosi panta funcției la un anumit punct ca ghid pentru a găsi locuri în care funcția este deasupra sau sub poziția noastră curentă Ego vă permite să găsiți minimele funcției Derivata unei functii diferentiabile /, notata cu /', este o alta functie care caracterizeaza panta functiei originale in toate punctele Ideea conceptuală este că derivata unei funcții într-un punct dat generează un indicator care oferă direcții în care funcția este deasupra sau sub valoarea ei curentă Algoritm de optimizare | capitolul pot urma acest indicator pentru a se apropia de minime La minime, funcția va avea o derivată zero Puterea optimizării bazate pe derivate nu este evidentă la început Generații de studenți la calcul s-au luptat prin exerciții de atenuare a minții de minimizare a funcțiilor minuscule pe hârtie Aceste exerciții nu sunt utile deoarece găsirea minimelor unei funcții cu puține intrări este un exercițiu trivial care se face cel mai bine grafic Puterea optimizării bazate pe derivate devine evidentă numai atunci când există sute, mii, milioane sau miliarde de variabile La aceste scale, înțelegerea unei funcții din punct de vedere analitic este aproape imposibilă, iar toate vizualizările sunt exerciții complexe care sunt pline cu riscul de a omite din greșeală atributele cheie ale unei funcții La aceste scări, gradientul funcției V/, o generalizare a lui f la funcții multidimensionale, este probabil cel mai puternic instrument matematic pentru înțelegerea unei funcții și a comportamentului acesteia Vom aprofunda în gradienți mai târziu în acest capitol (Din punct de vedere conceptual, acest lucru este adevărat, dar nu vom acoperi detaliile tehnice ale gradienților în această carte ) La un nivel foarte înalt, învățarea automată este pur și simplu procesul de minimizare a funcțiilor: algoritmii de învățare nu sunt altceva decât găsitori de minime pentru funcții formulate corect Această definiție are avantajul simplității matematice Dar care sunt aceste funcții diferențiabile speciale care codifică soluții utile în minimele lor și cum pot fi găsite? Funcții de pierdere Pentru a rezolva o anumită problemă de învățare automată, un analist de date trebuie să găsească o modalitate de a construi o funcție ale cărei minime codifică soluții la problema actuală din lumea reală Din fericire pentru nenorocitul nostru analist de date, literatura de învățare automată a adunat o arhivă bogată de funcții de pierdere care realizează astfel de codificări Învățarea automată practică se reduce la înțelegerea diferitelor tipuri de funcții de pierdere disponibile și la înțelegerea funcției de pierdere care ar trebui aplicată la care probleme Cu alte cuvinte, funcția de pierdere este mecanismul prin care un proiect de știință a datelor este tradus în matematică Toată învățarea automată și o mare parte din inteligența artificială se rezumă la crearea funcției de pierdere potrivite pentru a rezolva problema actuală Vă vom oferi o scurtă prezentare a unor familii de funcții de pierdere utilizate în mod obișnuit Să începem cu faptul că funcția de pierdere £, pentru a avea valoare semnificativă, trebuie să satisfacă anumite proprietăți matematice În primul rând, C trebuie să folosească atât punctele de date x, cât și etichetele y Vom nota acest lucru scriind funcția de pierdere ca £(x, y) Folosind conceptele din capitolul anterior, putem spune că x și y sunt tensori, iar £ este o mapare din Regresia liniară și logistică cu TensorFlow | perechi de tensori la scalari Care ar trebui să fie forma funcțională a funcției de pierdere? Este obișnuit ca funcțiile de pierdere să fie aditive Să presupunem că (x, y,) sunt datele prezente în cazul i și există Y cazuri în total Funcția de pierdere poate fi apoi extinsă ca = (În practică, Ct este același pentru fiecare punct de date ) Există multe beneficii utile pentru această descompunere aditivă În primul rând, derivatele se factorizează prin adunare, astfel încât calculul gradientului de pierdere totală este simplificat după cum urmează: V£(x, y) = fvz;(xn y,) = Acest truc matematic ingenios înseamnă că dacă funcțiile mai mici ξ sunt diferențiabile, atunci același lucru va fi valabil și pentru funcția de pierdere totală De aici rezultă că problema proiectării funcțiilor de pierdere se reduce la problema proiectării funcțiilor mai mici £ (X y,) Înainte de a ne aprofunda în designul lui £ , va fi util să facem o scurtă digresiune care să explice diferența dintre problemele de clasificare și regresie Clasificare și regresie Algoritmii de învățare automată pot fi împărțiți în categorii mari: sarcini supravegheate (supravegheate) și sarcini nesupravegheate (nesupravegheate) Sarcinile supravegheate sunt sarcini care au atât x puncte de date, cât și y etichete, în timp ce sarcinile nesupravegheate au doar x puncte de date fără y etichete În general, învățarea automată supravegheată este mult mai complexă și mai puțin bine definită (Ce înseamnă să "înțelegi" punctele x?) Nu ne vom aprofunda deocamdată în funcțiile pierderilor fugare, deoarece în practică majoritatea pierderilor fugare sunt interpretate greșit ca pierderi controlate Învățarea automată supravegheată poate fi împărțită în două subsarcini: o problemă de clasificare și o problemă de regresie O problemă de clasificare este una în care încercați să proiectați un sistem de învățare automată care atribuie o etichetă discretă, să spunem / (sau mai general , ,n), unui anumit punct de date Regresia este sarcina de a proiecta un sistem de învățare automată care atașează o etichetă reală (în spațiul R) unui anumit punct de date La un nivel înalt, aceste probleme pot părea disparate Obiectele discrete și continue sunt de obicei tratate diferit de matematică și de bun simț Cu toate acestea, o parte a trucului folosit în învățarea automată este aplicarea funcțiilor de pierdere diferențiabilă continuă pentru I Capitolul codificarea atât a problemelor de clasificare, cât și de regresie După cum am menționat mai devreme, marea majoritate a învățării automate nu este altceva decât arta de a transforma sisteme complexe din lumea reală în funcții diferențiabile destul de simple În secțiunile următoare, vă vom prezenta câteva funcții matematice care vor fi foarte utile pentru a converti problemele de clasificare și regresie în funcții de pierdere adecvate /loss Pierderea Z (pronunțat "el doi") este folosită în mod obișnuit pentru problemele de regresie Pierderea Z (sau norma Z , așa cum este denumită în altă parte) oferă o măsură a dimensiunii unui vector: Aici a este un vector de lungime N Norma L este de obicei folosită pentru a determina distanța dintre doi vectori: Această idee cu GBP ca măsură a distanței s-a dovedit a fi foarte utilă pentru rezolvarea problemelor de regresie în învățarea automată supravegheată Să presupunem că x este un set de date, y sunt etichete Fie f o funcție diferențiabilă care codifică modelul nostru de învățare automată Apoi, pentru a determina f să prezică y, creăm o funcție de pierdere Z : £(x'>z)=I|/(x)->'L Ca o notă rapidă, în practică este obișnuit să folosiți pierderea Z nu direct, ci mai degrabă pătratul său: ||a-m:=±(^-^) , /= să nu se ocupe de termeni precum /Vx în gradient Vom folosi } -loss quadratic în mod repetat în restul acestui capitol și în întreaga carte Eșecul funcției/Moduri de pierdere Pierderea Z penalizează drastic abaterile la scară mare de la etichetele adevărate, dar nu lucrează prea mult în recompensarea potrivirilor exacte pentru etichetele reale Putem înțelege matematic această discrepanță studiind comportamentul funcțiilor x în apropierea originii (Figura ) Regresia liniară și logistică cu TensorFlow | Orez Compararea funcțiilor pătrate și identice în apropierea originii Observați cum x coboară la pentru valori mici ale lui x Ca urmare, micile abateri nu sunt penalizate puternic de pierderea Z În regresia dimensională mică, aceasta nu este o problemă majoră, dar în regresia multivariată, L devine o funcție de pierdere proastă, deoarece pot exista multe abateri mici care, împreună, fac ca regresia să rezulte rău De exemplu, în predicția imaginii, pierderea Z creează imagini neclare care nu sunt atrăgătoare din punct de vedere vizual Progresele recente în învățarea automată au condus la dezvoltarea unor modalități de a învăța funcțiile de pierdere Aceste funcții de pierdere învățate, adesea stilizate ca rețele generative adverse (GAN), sunt mult mai potrivite pentru regresia multivariată și sunt capabile să genereze imagini neîncețoșate Distribuții de probabilitate Înainte de a introduce funcțiile de pierdere pentru probleme de clasificare, este util să faceți o scurtă digresiune și să vă familiarizați cu distribuțiile de probabilitate Pentru început, ar trebui să se răspundă la întrebări: ce este probabilitatea și de ce ar trebui să fim interesați de ea în scopul învățării automate? Probabilitatea este un subiect vast, așa că ne vom aprofunda suficient pentru ca tu să înțelegi La un nivel înalt, distribuțiile de probabilitate implementează un truc matematic ingenios care vă permite să atenuați un set discret de alegeri, transpunându-l într-un set infinit Să presupunem că doriți să proiectați un sistem de învățare automată care prezice dacă o monedă va ateriza cu capul în sus sau în jos Nu pare că direcția sus/jos poate fi codificată ca o funcție continuă, cu atât mai puțin diferențiabilă Apoi, cum să utilizați motorul de calcul sau biblioteca TensorFlow pentru a rezolva probleme de alegere discretă? I Capitolul Ar trebui introdusă o distribuție de probabilitate În loc de alegeri grele, faceți clasificatorul să prezică șansa de a ridica sau în jos capul De exemplu, un clasificator poate învăța să prezică că o monedă care se îndreaptă în sus are o probabilitate de , , iar o monedă să cadă cozile are o probabilitate de , Rețineți că probabilitățile sunt în continuă schimbare! Prin urmare, lucrând cu probabilitățile de evenimente discrete mai degrabă decât cu evenimentele în sine, puteți ocoli problema că calculul nu funcționează cu adevărat cu evenimente discrete Distribuția de probabilitate p este pur și simplu o listă de probabilități pentru evenimentele discrete posibile de unică folosință În acest caz p = ( , ; , ) Rețineți că p\ { ; } -> R, ca o mapare dintr-o mulțime formată din două elemente la numere reale O astfel de vedere va fi din când în când utilă în ceea ce privește notația Rețineți pe scurt că definiția tehnică a distribuției de probabilitate va fi mai complicată Există o posibilitate practică de a atribui distribuții de probabilitate evenimentelor reale Vom discuta despre astfel de distribuții mai târziu în acest capitol Pierderea entropiei încrucișate Entropia încrucișată este o metodă matematică pentru măsurarea distanței dintre două distribuții de probabilitate: n (p> i) \u d "E p (x) o i (x) • Aici p și q sunt două distribuții de probabilitate Notația p(x) înseamnă că probabilitatea p corespunde evenimentului x Această definiție merită discutată cu atenție Ca și norma Z , H oferă conceptul de distanță Rețineți că atunci când p = q, n (p> p)=-EXx) ° p(x) • X Această cantitate este entropia p și este de obicei scrisă simplu ca H(p) Aceasta este o măsură a cât de aleatorie este distribuția; entropia este maximă atunci când toate evenimentele sunt la fel de probabile H(p) este întotdeauna mai mic sau egal cu R(p, ?) • de fapt, cu cât distribuția q ref este mai îndepărtată, cu atât entropia încrucișată devine mai mare Nu vom intra în sensul exact al acestor afirmații, dar înțelegerea intuitivă a entropiei încrucișate ca mecanism de distanță merită reținută Rețineți că, spre deosebire de norma Z , H este asimetric! Adică H(p, q) * H(q, p) Din acest motiv, raționamentul cu entropie încrucișată poate fi puțin complicat și este cel mai bine făcut cu puțină atenție Revenind la întrebări specifice, să presupunem că p-(y, \- y) este adevărata distribuție a datelor pentru un sistem discret cu două rezultate, Regresie liniară și logistică cu Tensorflow | iar eu ~(Kredsk' "Predsk) este ceea ce este prezis de sistemul de învățare automată Atunci pierderea de entropie încrucișată este H (p, q) \u d y log + ( - y) log ( - înainte) Această formă de pierdere este utilizată pe scară largă în sistemele de învățare automată pentru a instrui clasificatorii Din punct de vedere empiric, minimizarea H(p, q) pare să producă clasificatori care reproduc bine etichetele de antrenament furnizate coborâre în gradient Deci, în acest moment, v-ați familiarizat cu conceptul de minimizare a funcției ca proxy pentru învățarea automată Amintiți-vă că pentru a învăța cum să rezolvați problema dorită, este adesea suficient să minimizați funcția corespunzătoare Utilizarea acestui cadru matematic implică necesitatea de a aplica funcții de pierdere adecvate, cum ar fi pierderea £ sau entropia încrucișată H(p,q), pentru a converti problemele de clasificare și regresie în funcții de pierdere adecvate Greutăți învățate Până acum, în acest capitol, am explicat că învățarea automată este actul de a minimiza o funcție de pierdere formulată corect £(x, y) Adică, încercăm să găsim astfel de argumente ale funcției de pierdere £ care să o minimizeze Cu toate acestea, cititorii atenți își vor aminti că (x, y) sunt valori fixe care nu pot fi modificate Ce argumente ale funcției £ schimbăm în timpul autoînvățarii? Să introducem greutățile învățate JK Să presupunem că f(x) este o funcție diferențiabilă pe care dorim să o potrivim cu modelul nostru de învățare automată Definim că f este parametrizată prin alegerea lui W Adică, funcția noastră are de fapt două argumente f (W\x) Fixarea valorii lui W are ca rezultat o funcție care depinde numai de punctele de date x Astfel de greutăți învățate sunt cantități care sunt de fapt alese prin minimizarea funcției de pierdere Mai târziu în acest capitol, vom vedea cum poate fi folosită biblioteca TensorFlow pentru a codifica greutăți învățate folosind tf Vartable Acum să presupunem că am codificat problema noastră de auto-învățare cu o funcție de pierdere adecvată Cum puteți găsi minimele acestei funcții de pierdere pentru Cu alte cuvinte, când se spune că se învață o valoare (greutate, parametru), înseamnă că aceasta este calculată de algoritmul de învățare prin minimizarea funcției de pierdere, care depinde de datele de antrenament - Aprox pe I Capitolul practică? Trucul cheie pe care îl vom folosi este reducerea la minimum a coborârii gradientului Să presupunem că f este o funcție care depinde de unele greutăți W Atunci VI denotă o schimbare de direcție în W care va maximiza / Rezultă că un pas în direcția opusă ne va apropia de minimele lui f Notație pentru degrade Am scris gradientul pentru greutatea învățată W ca VI Uneori este convenabil să folosiți o notație alternativă cu gradient: aw Această ecuație ar trebui interpretată în așa fel încât gradientul VI să codifice direcția care modifică pierderea £ în măsura maximă Ideea din spatele coborârii gradientului este de a găsi minimul unei funcții urmând în mod repetat direcția unui gradient negativ Această regulă poate fi exprimată algoritmic după cum urmează: unde a este dimensiunea pasului și dictează cât de multă greutate ar trebui acordată noului gradient VFF Ideea este să facem mulți pași mici către VFF Rețineți că gradientul VI este în sine o funcție a lui W, deci pasul real se schimbă la fiecare iterație Fiecare pas face o mică actualizare a matricei de greutate W Procesul iterativ de efectuare a actualizărilor este denumit în mod obișnuit învățarea matricei de greutate W Calcul eficient al gradientului cu mini-loturi O problemă este că calculul VFF poate fi foarte lent VfT depinde implicit de funcția de pierdere £ Deoarece £ depinde de întregul set de date, calculul VI poate deveni foarte lent pentru seturile de date mari În practică, experții calculează de obicei VFF pe o porțiune a setului de date, numită mini-lot Fiecare mini-lot constă de obicei din - de elemente de date Într-un algoritm de învățare profundă, dimensiunea mini-lot este un hiperparametru Mărimea a a fiecărui pas este un alt hiperparametru Algoritmii de învățare profundă au de obicei grupuri de hiperparametri care nu sunt, ca atare, învățați prin coborârea gradientului stocastic Această tensiune între parametrii învățați și hiperparametrii este unul dintre punctele forte și punctele slabe ale arhitecturilor profunde Prezența hiperparametrilor oferă multe oportunități de a folosi intuiția puternică a unui expert, în timp ce parametrii învățați permit datelor să vorbească de la sine Cu toate acestea, această flexibilitate devine rapid o slăbiciune, iar comportamentul hiperparametrilor arată ca magia neagră, care Regresia liniară și logistică cu TensorFlow | creează obstacole specialiștilor începători pentru introducerea pe scară largă a autoînvățarii profunde Vom depune un efort considerabil discutând despre optimizarea hiperparametrică mai târziu în această carte Încheiem această secțiune introducând conceptul de epocă O epocă este o trecere completă a algoritmului de coborâre a gradientului peste x Mai precis, o epocă constă din mulți pași de coborâre a gradientului necesari pentru a vedea toate datele într-un mini-lot de o dimensiune dată De exemplu, să presupunem că setul de date are de puncte de date și că procesul de instruire utilizează un mini-lot de de articole Apoi, o epocă va consta din de actualizări de coborâre în gradient Fiecare epocă de antrenament crește cantitatea de cunoștințe utile dobândite de model Într-un sens matematic, aceasta va corespunde unor reduceri ale valorii funcției de pierdere în setul de antrenament Epocile timpurii vor face ca funcția de pierdere să scadă brusc Acest proces este adesea numit învățarea a priori de informații dintr-un anumit set de date Deși modelul pare să învețe rapid, de fapt se adaptează doar pentru a fi în partea din spațiul parametrilor care este relevantă pentru problema rezolvată Epocile ulterioare vor corespunde unor scăderi mult mai mici ale funcției de pierdere, dar adesea în aceste epoci ulterioare va avea loc auto-învățarea semnificativă Câteva epoci acordă, de obicei, prea puțin timp pentru ca un model non-trivial să învețe ceva util; modelele sunt de obicei antrenate folosind până la de epoci sau până când apare convergența Deși acest număr pare mare, este important de reținut că numărul de epoci necesare nu crește de obicei cu dimensiunea setului de date curent Prin urmare, coborârea gradientului scala cu dimensiunea datelor liniar, nu pătratic! Acesta este unul dintre cele mai mari puncte forte ale metodei de coborâre a gradientului stocastic în comparație cu alți algoritmi de învățare Algoritmii de învățare mai complecși pot necesita o singură trecere prin setul de date, dar pot utiliza un calcul total care se scalează pătratic cu numărul de puncte de date În această epocă a seturilor de date mari, timpul de rulare pătratic este un defect fatal Urmărirea scăderii funcției de pierdere în raport cu numărul de epoci poate fi o notație vizuală extrem de utilă pentru înțelegerea procesului de auto-învățare Astfel de diagrame sunt adesea denumite curbe de pierdere (Figura ) De-a lungul timpului, un practician cu experiență va putea diagnostica eșecurile comune de auto-învățare pur și simplu uitându-se la curba pierderilor În această carte, vom acorda o atenție considerabilă curbelor de pierdere pentru diferite modele de învățare profundă În special, mai târziu în acest capitol vom introduce TensorBoard, un pachet puternic de vizualizare pe care TensorFlow îl oferă pentru cantități precum funcțiile de pierdere I Capitolul Costul datelor de antrenament Orez Un exemplu de curbă de pierdere pentru un model Rețineți că această curbă de pierdere este derivată dintr-un model antrenat cu un gradient adevărat (adică nu un calcul mini-lot) și, prin urmare, este mai netedă decât alte curbe de pierdere pe care le veți întâlni mai târziu în această carte Sisteme de diferențiere automată Învățarea automată este arta de a identifica funcțiile de pierdere care sunt adecvate pentru seturile de date și apoi de a le minimiza Pentru a minimiza funcția de pierdere, trebuie să le calculăm gradienții și să aplicăm un algoritm de coborâre a gradientului pentru a reduce iterativ pierderea Cu toate acestea, mai trebuie să discutăm despre cum sunt de fapt calculati gradienții Până de curând, răspunsul a fost "de mână", experții în învățarea automată rupând manual pixurile și mototolind hârtie în timp ce calculau derivatele matriceale pentru a calcula formule analitice pentru toți gradienții din sistemul de învățare Aceste formule au fost apoi programate manual pentru a implementa algoritmul de învățare Acest proces a fost notoriu predispus la erori și câțiva experți în învățarea automată pot spune povești despre erori aleatorii de gradient în lucrările publicate și sistemele de producție care au rămas nedescoperite ani de zile Situația s-a schimbat semnificativ odată cu utilizarea pe scară largă a mecanismelor de diferențiere automată Sisteme precum biblioteca TensorFlow sunt capabile să calculeze automat gradienții pentru aproape toate funcțiile de pierdere Diferențierea automată este unul dintre cele mai mari avantaje ale TensorFlow și ale sistemelor similare, ca practicieni Regresia liniară și logistică cu TensorFlow | auto-învățarea cu autobuzul nu mai trebuie să fie experți în calcul matriceal Cu toate acestea, este încă nevoie de o înțelegere la nivel înalt a modului în care biblioteca TensorFlow este capabilă să obțină automat funcții complexe Acei cititori care și-au parcurs un curs introductiv în calcul își pot aminti că luarea derivatelor funcțiilor este surprinzător de mecanică Există o serie de reguli simple care pot fi aplicate pentru a deriva derivate ale majorității funcțiilor De exemplu, -e \u d e dx Aceste reguli pot fi combinate cu o regulă în lanț: /($(*)) = f'(g W)g' (*), unde f este derivata functiei f, g' este derivata functiei g Folosind aceste reguli, este ușor să vă imaginați cum puteți programa mecanismul de diferențiere automată pentru calculul unidimensional Într-adevăr, crearea unui astfel de mecanism de diferențiere este adesea inclusă în curriculum în primul an de programare la orele Lisp (Se pare că analizarea corectă a funcțiilor este o sarcină mult mai dificilă decât derivarea acestora Lisp face trivială analizarea formulelor folosind sintaxa sa, în timp ce în alte limbi este adesea mai ușor să faci acest exercițiu până când iei un curs despre compilatoare ) Cum pot fi extinse aceste reguli la calculul de dimensiuni superioare? Este mai dificil să obții calculele matematice corecte, deoarece sunt mulți alți factori de luat în considerare De exemplu, în prezența X - AB, unde X, A, B sunt matrici, formula este următoarea: VA \u d - \u d - VG \u d (VX) VG dk dx v Astfel de formule pot fi combinate pentru a oferi un sistem de diferențiere simbolică pentru calculul vectorial și tensor Auto-învățare cu TensorFlow În restul acestui capitol, vom acoperi conceptele de care veți avea nevoie pentru a învăța modelele de bază de învățare automată folosind biblioteca TensorFlow Vom începe prin a introduce conceptul de seturi de date despre jucării și vom explica cum să creăm seturi de date semnificative despre jucării folosind bibliotecile generice Python Vom discuta apoi noi idei TensorFlow, cum ar fi substituenți, dicționare de transmitere a datelor, spații de nume, opti I Capitolul mizatoare și gradienți Următoarea secțiune va arăta cum să utilizați aceste concepte pentru a antrena modele simple de regresie și clasificare Crearea seturilor de date pentru jucării În această secțiune, vom discuta cum să creăm seturi de date sintetice sau jucării simple, dar semnificative, pe care le vom folosi pentru a antrena modele simple de clasificare și regresie supravegheate O introducere extrem de scurtă în NumPy Vom folosi pachetul NumPy pe scară largă pentru a defini seturi de date utile pentru jucării Pachetul NumPy Python vă permite să manipulați tensorii (numite tablouri în NumPy) Exemplul arată câteva dintre elementele de bază Exemplul Câteva exemple de utilizare elementară a pachetului NumPy "> import numpy ca np "> np zerouri (( , )) matrice ([[ , ], [ , ]]) "> ex eue( ) array([[ , , ], [ , , ], [ , , ]]) Este posibil să observați că manipularea matricei ndarray a lui NumPy arată remarcabil de similară cu manipularea tensorului lui TensorFlow Această asemănare a fost concepută special de arhitecții bibliotecii TensorFlow Multe funcții cheie ale serviciului TensorFlow au argumente și forme care sunt similare cu cele din NumPy Din acest motiv, nu vom încerca să vă prezentăm NumPy în detaliu și vom lăsa cititorii să experimenteze singuri pentru a înțelege utilizarea NumPy Există un număr mare de resurse online care oferă tutoriale NumPy De ce sunt importante seturile de date despre jucării? În învățarea automată, este adesea important să învățați cum să utilizați corect seturile de date de jucării Antrenamentul algoritmului este dificil, iar una dintre cele mai frecvente greșeli pe care le fac începătorii este să încerce prea repede să antreneze modele non-triviale pe date complexe Aceste încercări se termină adesea cu un eșec total, iar potențialul specialist în învățarea automată pleacă abătut și convins că învățarea automată nu este pentru el Regresia liniară și logistică cu TensorFlow | Adevăratul vinovat aici, desigur, nu este începătorul, ci faptul că seturile de date reale au multe caracteristici Analiștii de date cu experiență au realizat că seturile de date reale necesită adesea multe transformări de curățare și preprocesare înainte de a putea fi utilizate în învățarea automată Învățarea profundă exacerba această problemă, deoarece majoritatea modelelor de învățare profundă sunt cunoscute a fi sensibile la erorile de date Probleme precum gama largă de etichete de regresie sau modelele de zgomot puternic subiacente pot frustra metodele bazate pe coborârea gradientului, chiar și atunci când alți algoritmi de învățare automată (cum ar fi pădurile aleatorii) nu au nicio problemă Din fericire, aceste probleme pot fi rezolvate aproape întotdeauna, dar soluția poate necesita o sofisticare considerabilă din partea analistului de date Astfel de probleme de sensibilitate sunt poate cel mai mare obstacol în calea comercializării învățării automate ca tehnologie Vom arunca o privire mai atentă asupra strategiilor de curățare a datelor, dar deocamdată vă recomandăm o alternativă mult mai simplă: folosiți seturi de date de jucărie! Seturile de date de jucărie sunt esențiale pentru înțelegerea algoritmilor de învățare Având în vedere seturi de date sintetice foarte simple, nu este dificil să se determine cu exactitate dacă algoritmul a învățat regula dorită sau nu Pe seturi de date mai complexe, o astfel de judecată poate fi foarte dificil de obținut Din acest motiv, în restul acestui capitol, pe măsură ce acoperim principiile fundamentale ale auto-învățarii bazate pe coborârea gradientului cu TensorFlow, vom folosi doar seturi de date jucării Vom aprofunda în exemple practice folosind date reale în capitolele ulterioare Adăugarea de zgomot cu gaussieni Mai devreme, am discutat despre distribuțiile de probabilitate discrete ca un instrument pentru transformarea variantelor discrete în valori continue Ne-am referit, de asemenea, la ideea unei distribuții de probabilitate continue, dar nu ne-am scufundat în ea Distribuțiile continue de probabilitate (numite mai precis funcții de densitate de probabilitate) sunt un instrument matematic util pentru modelarea evenimentelor aleatoare care pot avea o serie de rezultate Pentru scopurile noastre, este suficient să prezentăm funcțiile de densitate de probabilitate ca un instrument util pentru modelarea unei erori de măsurare în colectarea datelor Distribuția de probabilitate Gaussiană, sau Gauss, este utilizată pe scară largă pentru modelarea zgomotului Rețineți că gaussienii pot avea valori medii diferite ale lui q și abateri standard ale lui o (Fig ) Media unui gaussian este media aritmetică pe care o ia, în timp ce abaterea standard este o măsură a răspândirii în jurul acelei medii În general, adăugarea unei variabile aleatoare gaussiene la o variabilă oferă I Capitolul o modalitate structurată de a estompa această valoare făcând-o să varieze ușor Aceasta este o tehnică foarte utilă pentru a crea seturi sintetice non-triviale Orez Ilustrații ale diferitelor distribuții de probabilitate gaussiene cu diferite medii și abateri standard Remarcăm pe scurt că distribuția Gauss se mai numește și distribuție normală Un gaussian cu o medie q și o abatere standard a este scris ca N(p, n) Această notație scurtă este convenabilă și o vom folosi în mod repetat în capitolele ulterioare Seturi de date de regresie jucărie Cea mai simplă formă de regresie liniară este învățarea parametrilor unei linii unidimensionale Să presupunem că punctele noastre de date x sunt unidimensionale Atunci să presupunem că etichetele reale y sunt generate de regula liniară: y = wx + b Aici w, b sunt parametrii învățabili pentru a fi calculați din datele de coborâre a gradientului Pentru a ne asigura că putem învăța acești parametri cu TensorFlow, să creăm un set de date artificial format din puncte pe o linie dreaptă Pentru a complica puțin sarcina de auto-învățare, vom adăuga niște zgomot gaussian la setul de date Să scriem ecuația pentru linia noastră dreaptă cu zgomot introdus de o cantitate mică de zgomot gaussian: y = wx + ă + V( , a) Aici a este abaterea standard a componentei de zgomot Apoi, așa cum se arată în Exemplul - , putem folosi NumPy pentru a crea un set de date artificial derivat din această distribuție Regresia liniară și logistică cu TensorFlow | Exemplul Utilizarea NumPy pentru a eșantiona un set de date artificiale # Generați date sintetice N- w true = b true = noise scale = x np = np random rand(N, ) zgomot = np random normal(scale=noise scale, size=(N, )) # Convertiți forma y np în (N,) y np = np reshape(w true * x np + b true + zgomot, (- )) Să construim un grafic al acestui set de date folosind biblioteca Matpiotiib din Fig (codul sursă poate fi găsit în depozitul GitHub (https://github com/matroid/dlwithtf) legat de această carte pentru a vedea implementarea exactă a plotării) și verificați dacă datele sintetice par rezonabile După cum era de așteptat, distribuția datelor este o linie dreaptă cu puține erori de măsurare Date de regresie liniară jucărie y - x + + V( , ) Orez Diagrama de distribuție a datelor de regresie a jucăriilor Seturi de date pentru clasificarea jucăriilor Crearea unui set de date de clasificare sintetică este puțin mai dificilă În mod logic, dorim să obținem două clase diferite de puncte care sunt ușor de separat Să presupunem că setul de date este format din două tipuri de puncte: (- , - ) și ( , ) I Capitolul Apoi algoritmul de învățare va trebui să învețe regula care separă aceste două valori de date l=(- ,- ); l=(i> ) Ca și înainte, vom complica puțin sarcina adăugând un pic de zgomot gaussian la ambele tipuri de puncte: y \u d (- , - ) + LG (O, o); Y, =( , ) + W( ,o) Cu toate acestea, există un mic truc aici Punctele noastre sunt D, în timp ce zgomotul gaussian pe care l-am introdus mai devreme este D Din fericire, există o generalizare multidimensională a gaussianului Nu vom discuta aici punctele mai fine ale gaussianului multivariat, nu trebuie să urmăriți discuția noastră Codul NumPy pentru crearea setului de date sintetice din Exemplul este puțin mai complicat decât pentru problema regresiei liniare, deoarece trebuie să folosim funcția de stivuire np vstack pentru a combina două tipuri diferite de puncte de date și a le asocia cu etichete diferite (Folosim funcția asociată np concatenateo pentru a potrivi etichetele unidimensionale ) I Exemplul Obținerea unui eșantion de set de date de clasificare a jucăriilor ■ folosind NumPy # Generați date sintetice N= # Zerourile formează un gaussian centrat pe (- , - ) # epsilon este egal cu x zeros - np random multivariate normal( medie=np array((- , - )), cov= l*np eye( ), dimensiune=(N/ ,)) y zeros = np zeros((N/ ,)) # Zerourile formează un gaussian centrat pe ( , ) # epsilon este egal cu x ones = np random multivariate normal( medie=np array(( , )), cov= l*np eye( ), dimensiune=(N/ ,)) y one = np one((N/ ,)) x np = np vstack([x zeros, x one]) y np = np concatenate([y zeros, yones]) Pe fig Figura prezintă un grafic al datelor generate de codul de mai sus folosind biblioteca Matplotlib pentru a verifica dacă distribuția este corectă Putem vedea că datele sunt în două clase care sunt clar separate np vstack () - funcția de a stivui matrice vertical într-o secvență stivuită Consultați https://docs scipy org/doc/numpy/reference/generated/numpy vstack html - Aprox pe Regresia liniară și logistică cu TensorFlow | Orez Graficul de distribuție a datelor de clasificare a jucăriilor Noile concepte TensorFlow Pentru a crea sisteme simple de învățare automată în TensorFlow, va trebui să cunoașteți câteva concepte noi ale acestei biblioteci Substituenți Un substituent este o modalitate de a introduce informații într-un grafic de calcul TensorFlow Gândiți-vă la substituenți ca la noduri de intrare prin care informațiile intră în TensorFlow Funcția cheie folosită pentru a crea substituenți este tf placeholder (Exemplul ) i Exemplul Crearea unui substituent TensorFlow >> tf placeholder(tf float , shape=( , )) Vom folosi substituenți pentru a transmite x puncte de date și y etichete algoritmilor noștri de regresie și clasificare Transfer de date și dicționare de selecție Amintiți-vă că putem calcula tensori în TensorFlow folosind metoda sess run(var) Apoi, cum să furnizați valori pentru substituenți în calculele noastre în TensorFlow? Răspunsul este de a construi dicționare de transfer de date Dicționare frontale I Capitolul Data chi sunt dicționare Python care asociază tensorii TensorFlow cu obiecte matrice NumPy np ndarray care conțin valori specifice pentru acești substituenți Dicționarul de transfer de date este cel mai bine gândit ca intrare într-un grafic de calcul TensorFlow Care este rezultatul? În TensorFlow, rezultatul se numește fetches Ați văzut deja selecții Le-am folosit pe scară largă în capitolul precedent fără a ne referi la ele ca atare; un eșantion este un tensor (sau tensori) a cărui valoare este preluată din graficul de calcul după finalizarea calculului (folosind valorile substituenților din dicționarul de transfer de date) (Exemplul ) Exemplul Utilizarea selecțiilor | "> a = tf placeholder(tt float , shape=(i,jj "> b = tf placeholder(tf float , shape=(l,)) "> c = a + b "> cu tf SessionO ca sess: c eval = sess run(c, {a: [ ], b: [ ]}) prinț(c eval) [ ] Spații de nume În programele complexe TensorFlow, cu siguranță va exista un număr mare de tensori, variabile și substituenți Funcția tf name scope(name) oferă un mecanism simplu de stabilire a domeniului pentru gestionarea acestor colecții de variabile (Exemplul - ) Numele tuturor elementelor graficului de calcul creat ca parte a apelului la tf name scope (nume) SUNT SUPLIMENTATE cu prefixul NAME, Acest instrument organizațional este cel mai util atunci când este combinat cu pachetul de vizualizare TensorBoard, deoarece ajută sistemul de vizualizare să grupeze automat elementele graficului în același spațiu de nume Veți afla mai multe despre TensorBoard în secțiunea următoare ^ Exemplul Utilizarea spațiilor de nume pentru a organiza substituenți ">N= "> cu tf name scope("substituenți"): x = tf placeholder(tf float , (N, )) y = tf placeholder(tf float , (N,)) "> x Optimizatoare Primitivele introduse în ultimele două secțiuni deja indică modul în care se realizează învățarea automată în TensorFlow Ați învățat cum să adăugați substituenți pentru punctele de date și etichete și cum să utilizați operațiunile tensorului Regresia liniară și logistică cu TensorFlow | definirea funcţiei de pierdere Partea care lipsește este că încă nu știi cum să faci coborâre în gradient în TensorFlow Deși este de fapt posibil să se definească algoritmi de optimizare, cum ar fi coborârea gradientului direct în Python, folosind primitive TensorFlow, biblioteca TensorFlow oferă o colecție de algoritmi de optimizare în modulul tf train Acești algoritmi pot fi adăugați ca noduri la un grafic de calcul TensorFlow Ce optimizator ar trebui să folosesc? tf train are un număr mare de optimizatori posibili Ca o previzualizare rapidă, această listă include tf train GradientDescentOptimizer, tf train MomentumOptimizer, tf train AdagradOptimizer, tf train AdamOptimizer Și multe altele Care este diferența dintre aceste optimizatoare? Aproape toate aceste optimizatoare se bazează pe ideea coborârii gradientului Amintiți-vă de regula simplă de coborâre a gradientului pe care am introdus-o mai devreme: În sens matematic, această regulă de actualizare este primitivă Există o serie de trucuri matematice ingenioase pe care cercetătorii le-au descoperit și care vă permit să optimizați mai rapid fără a utiliza în mod intens calculele redundante În general, un bun implicit este tf train AdamOptimizer, care este relativ fiabil (Multe metode din optimizatori sunt foarte sensibile la alegerea hiperparametrilor Începătorii ar trebui să evite metodele complicate până când au o bună înțelegere a comportamentului diferiților algoritmi de optimizare ) Exemplul - arată o bucată scurtă de cod care adaugă un optimizator la graficul de calcul care minimizează pierderea predefinită de Exemplul Adăugarea AdamOptimizer la un grafic TensorFlow Computing rata de învățare = cu tf name scope("optim"): train op = tf train AdamOptimizer(learning rate) minimize( ) Preluare degrade cu TensorFlow Mai devreme am menționat că TensorFlow vă permite să implementați direct algoritmi de coborâre a gradientului În timp ce în majoritatea cazurilor de utilizare nu este necesară suprascrierea conținutului modulului tf train, poate fi util să se uite direct la valorile gradientului în scopuri de depanare Funcția tf gradients oferă un instrument util pentru aceasta (Exemplul - ) I Capitolul Exemplul Preluare directă în gradient "> W = tf Variabilă( ( ,)) "> = tf reduce sum (W) ">gradW = tf gradients( , W) "> gradW [ ] Acest fragment de cod micșorează simbolic gradienții de pierdere în raport cu parametrul care poate fi învățat (tf variabie) w Funcția tf gradients() returnează o listă cu gradienții doriti Rețineți că gradienții ca atare sunt tensori! TensorFlow efectuează diferențierea simbolică, ceea ce înseamnă că gradienții înșiși fac parte dintr-un grafic computațional Un efect secundar bun al gradienților simbolici TensorFlow este că TensorFlow are capacitatea de a stivui derivate în niveluri Acest lucru poate fi uneori util pentru algoritmi mai avansați Pivoți și scriitori pentru TensorBoard Obținerea unei înțelegeri vizuale a structurii unui program tensor poate fi de mare ajutor Pentru aceasta, echipa de dezvoltare TensorFlow furnizează pachetul TensorBoard TensorBoard rulează un server web (localhost în mod implicit) care arată diverse vizualizări utile ale programului TensorFlow Cu toate acestea, pentru ca programele TensorFlow să fie validate cu TensorBoard, programatorii trebuie să scrie manual instrucțiuni de înregistrare Metoda tf train riieWriter specifică directorul de jurnal pentru programul TensorBoard și tf sununary scrie rezumate ale diferitelor variabile TensorFlow într-un director de jurnal dat În acest capitol, vom folosi doar funcția tf suwmary scalar, care rezumă o valoare scalară, pentru a ține evidența valorii funcției de pierdere Modulul tf conține funcția tf sununary merge aii, care este un instrument util de înregistrare care îmbină mai multe rezumate într-unul singur pentru comoditate Fragmentul de cod din Exemplul - adaugă un rezumat al pierderilor și setează directorul de jurnal Exemplul Adăugarea unui raport rezumat pentru funcția de pierdere cu tf name scope("sununaries"): tf sununary scalar("pierdere", ) îmbinat=tf sununary merge all() train writer = tf sununary FileWriter('/tmp/lr-train', tf get default graph()) De exemplu, când există două funcții În acest caz, vectorii de gradient sunt organizați într-o matrice prin stivuirea gradienților unul peste altul Când se face acest lucru, se obține matricea jacobiană Consultați http://parrtcs usfca edu/doc/matrix-calculus/index html - Aprox pe Regresia liniară și logistică cu TensorFlow | Antrenamentul modelului cu TensorFlow Să presupunem că am definit substituenți pentru punctele de date și etichetele și am determinat pierderea folosind operații cu tensori Am adăugat un nod de optimizare a trenului în graficul de calcul care poate fi folosit pentru a efectua pași de coborâre a gradientului (deși putem folosi un optimizator diferit, ne vom referi la actualizări ca coborâre a gradientului pentru comoditate) Cum puteți efectua iterativ coborârea gradientului pentru a învăța din acest set de date? Cel mai simplu răspuns este să folosiți o buclă Python for În fiecare iterație, folosim metoda sess runo pentru a extrage operația de antrenament train op din graficul de calcul împreună cu rezumatul îmbinat și pierderea Trecem toate punctele de date și etichetele metodei sess runo folosind dicționarul de transfer de date Fragmentul de cod din Exemplul - demonstrează această metodă simplă de auto-învățare Vă rugăm să rețineți că, de dragul simplității pedagogice, nu folosim mini-pachete În codul următoarelor capitole, mini-lotul va fi utilizat în timpul instruirii pe seturi mari de date Exemplul Un exemplu simplu de antrenament de model n pași = cu tf Session() ca sess: sess run(tf global variables initializer()) # Antrenează modelul pentru i în interval (n pași): feed dict = {x: x np, y: y np} summary, loss = sess run([train op, merged, ], feed dict=feed dict) prinț("pas %d, pierdere: %f" % (i, pierdere)) train writer add summary (rezumat, i) Instruire modele liniare și logistice în TensorFlow Această secțiune leagă toate conceptele TensorFlow introduse în secțiunea anterioară pentru a antrena modele de regresie liniară și logistică pe seturile de date despre jucării pe care le-am introdus mai devreme în acest capitol Regresia liniară în TensorFlow În această secțiune, vom furniza codul pentru a defini un model de regresie liniară în TensorFlow și a antrena ponderile acestuia Această sarcină este simplă și o puteți face cu ușurință fără TensorFlow Cu toate acestea, acesta este un exercițiu bun în TensorFlow, deoarece va reuni noile concepte cu care v-am prezentat pe parcursul capitolului I Capitolul Definirea și antrenamentul regresiei liniare în TensorFlow Modelul pentru regresia liniară este simplu: y = wx + b Aici w și b sunt ponderile pe care vrem să le învățăm Vom converti aceste greutăți în obiecte tf variabie Folosim apoi operații cu tensori pentru a construi pierderea de £ : £(x,y) = (y-wx-b) Codul din Exemplul - implementează aceste operații matematice în TensorFlow De asemenea, folosește funcția tf name scopeo pentru a grupa diferite operațiuni și adaugă o funcție tf train AdamOptimizer pentru auto-învățare și o operație tf summary pentru utilizarea pachetului de vizualizare TensorBoard ; Exemplul Definirea unui model de regresie liniară # Generați graficul tensorflow cu tf name scope("substituenți"): x = tf placeholder(tf float , (N, )) y = tf placeholder(tf float , (N,)) cu tf name scope("greutăți"): # Rețineți că x este un scalar, # deci W este o singură greutate de învățare W = tf Variable(tf random normal(( , ))) b = tf Variable(tf random normal(( ,))) cu tf name scope("predicție"): y pred = tf matmul(x, W) + b cu tf name scope("pierdere"): = tf reduce sum((y - y pred)** ) # Adăugați optimizarea antrenamentului cu tf name scope("optim"): # Setați rata de învățare la așa cum este recomandat mai sus train op = tf train AdamOptimizer( ) minimize( ) cu tf name scope("rezumate"): tf summary scalar("pierdere", ) îmbinat = tf summary merge all() train writer = tf summary FileWriter('/tmp/lr-train', tf get default graph()) Exemplul antrenează apoi acest model așa cum sa discutat mai devreme (fără a utiliza mini-lotul) Regresia liniară și logistică cu TensorFlow | i Exemplul Antrenarea unui model de regresie liniară n pași = cu tf SessionO ca sess: sess run(tf global variables initializer()) # Antrenează modelul pentru i în interval (n pași): feed dict = {x: x np, y: y np} summary, loss = sess run([train op, merged, ], feed dict=feed dict) prinț("pas %d, pierdere: %f" % (i, pierdere)) train writer add summary (rezumat, i) Tot codul pentru acest exemplu este găzduit în depozitul GitHub asociat cu cartea (https://github com/matroid/dlwithtf) Îi încurajăm pe toți cititorii să ruleze scriptul complet al exemplului de regresie liniară pentru a înțelege cum funcționează algoritmul de învățare Exemplul este suficient de mic încât cititorii nu vor avea nevoie de niciun echipament de calcul specializat pentru al rula Luarea gradienților pentru regresia liniară Ecuația pentru sistemul liniar pe care îl modelăm este y = ux + b, unde w, b sunt ponderile învățate După cum am menționat mai devreme, pierderea pentru acest sistem este t = (y - ux - b) Mai multe operații de calcul matriceal pot fi utilizate pentru a calcula gradienții parametrilor învățați direct pentru w: Vw = = - (y-wx-b)xT dw si pentru b: Vb = ds db = - (y-wx-b) Punem aceste ecuații aici doar ca referință pentru cititorii curioși Nu vom încerca să predăm sistematic metodele de luare a derivatelor funcțiilor de pierdere pe care le întâlnim în această carte Rețineți, totuși, că, în cazul sistemelor complexe, luarea manuală a derivatei funcției de pierdere ajută la dezvoltarea unei înțelegeri intuitive a modului în care o rețea profundă învață Această înțelegere intuitivă poate servi drept ghid puternic pentru designer, așa că încurajăm cititorii avansați să continue să exploreze acest subiect pe cont propriu I Capitolul Vizualizarea modelelor de regresie liniară cu TensorBoard Modelul definit în secțiunea anterioară folosește scriitorul tf summary FileWriter pentru a scrie jurnalele în directorul de jurnal /tmp/lr-train Putem invoca TensorBoard în acest director de jurnal cu comanda din Exemplul (Serverul web local TensorBoard este instalat implicit cu TensorFlow ) I~ Exemplul Pornirea serverului web TensorBoard tensorboard logdir=/tmp/lr-train Această comandă va porni serverul web TensorBoard pe portul atribuit localhost Deschideți acest port într-un browser Ecranul TensorBoard va arăta ceva ca cel din fig (Aspectul exact poate varia în funcție de versiunea dvs de TensorBoard ) Faceți clic pe fila Grafice și veți vedea o vizualizare a arhitecturii TensorFlow pe care am definit-o (Figura ) Cântare TensorBoard Scrieți un regex pentru a crea un grup de etichete X summartes □ Alcool pe subliniere Q Linkuri de descărcare a datelor Metoda de sortare a balonului explicativ: implicit * Netezire - Axa Honzontală PERETE RELATIV Aleargă Scrieți o expresie regex pentru a filtra rulările B(r)■ Orez Captură de ecran a panoului TensorBoard Regresia liniară și logistică cu TensorFlow | optim Orez Vizualizarea arhitecturii regresiei liniare în TensorBoard (optim - optimizare, pierdere - pierdere; predicție - predicție; substituenți - substituenți; ponderi - ponderi) Rețineți că această vizualizare a grupat toate elementele grafice de calcul aparținând diferitelor domenii tf name În graficul de calcul sunt conectate diferite grupuri în funcție de dependențele lor Toate articolele grupate pot fi extinse pentru a le vizualiza conținutul Pe fig Figura prezintă arhitectura implementată După cum puteți vedea, există multe noduri ascunse care devin brusc vizibile! Funcțiile TenSOrFlow ca tf train AdamOptimizer oh, adesea au MULTE variabile interne în propriul domeniu tf name Extinderea elementelor grafice în TensorBoard oferă o modalitate ușoară de a privi sub capotă pentru a vedea ce creează de fapt sistemul Deși redarea pare destul de complexă, marea majoritate a acestor detalii se află în culise și nu trebuie să vă faceți griji încă Reveniți la fila Notă (Acasă) și deschideți secțiunea Rezumate Ar trebui să vedeți acum o curbă de pierdere care seamănă cu cea prezentată în fig Observați forma de cădere netedă a curbei La început, pierderea scade rapid atunci când informația a priori este învățată, apoi scade și se stabilizează Stiluri de depanare vizuală și non-vizuală Trebuie să folosesc un instrument precum TensorBoard pentru a profita din plin de TensorFlow? Totul depinde de circumstanțe Trebuie să folosesc o interfață grafică cu utilizatorul (GUI) sau un depanator interactiv pentru a deveni programator profesionist? I Capitolul Orez Vizualizarea arhitecturii extinse Regresia liniară și logistică cu TensorFlow | Diferiți programatori folosesc stiluri diferite Unii vor considera că capacitățile de vizualizare ale TensorBoard sunt o parte critică a fluxului de lucru de programare a tensorului Alții vor găsi că TensorBoard nu este foarte util și vor folosi mai larg depanarea bazată pe instrucțiunile prinț Ambele stiluri de programare cu tensori și depanare sunt acceptabile, la fel cum există programatori grozavi care au încredere orbește în depanatori și în cei care îi urăsc În general, pachetul TensorBoard este foarte util pentru depanare și dezvoltarea unei intuiții de bază despre setul de date curent Vă recomandăm să urmați stilul care vi se potrivește cel mai bine TensorBoard SCALARE IMAGINI AUDIO Scrieți o expresie regex pentru a crea un grup de etichete X Împărțiți pe caractere de subliniere Q] Link-uri de descărcare a datelor Metoda de sortare a balonului instrument: implicit Netezire rezumate rezumate/pierdere e+ e+ e+ e+ e+ e+ e+ Z OOOk b OOOk Axa Honzontală ETAPA PERETE RELATIV Aleargă Scrieți o expresie regex în fdter runs B(r)■ Orez Vizualizarea curbei de pierdere în TensorBoard Metrici pentru evaluarea modelelor de regresie Până în acest moment, nu am discutat cum să evaluăm dacă un model antrenat a învățat de fapt ceva Prima abordare pentru a evalua dacă un model a fost antrenat este să se uite la curba pierderilor pentru a vedea dacă are o formă rezonabilă Ați învățat cum să faceți acest lucru în secțiunea anterioară Ce altceva să încerci? Acum dorim să vă uitați la valorile care sunt relevante pentru model O valoare, sau o valoare, este un instrument pentru compararea etichetelor prezise cu etichetele adevărate Pentru problemele de regresie, există două valori general acceptate: R și RMSE (media rădăcină I Capitolul eroare pătrată, eroare pătrată medie) R (I-pătrat) este o măsură a corelației dintre două variabile și ia valori de la + la + indică corelația perfectă și indică nicio corelație Din punct de vedere matematic, R pentru două seturi de date Chi Y este definit ca unde cov(Jf, Y) este covarianța Chi Y, o măsură a modului în care două seturi de date variază împreună; și aY sunt abateri standard, măsurători de cât de mult variază fiecare set individual În mod intuitiv, R măsoară cât de multă variație independentă din fiecare set poate fi explicată prin variația comună a acestora Mai multe tipuri de R ! În practică, două definiții ale lui R sunt utilizate pe scară largă O greșeală comună printre începători (și, de asemenea, experți) este că sunt adesea confuzi În această carte, vom folosi întotdeauna coeficientul de corelație pătratică al lui Pearson (Figura ) O altă definiție se numește coeficient de determinare Această altă măsură a R este adesea mult mai confuză, deoarece nu are o limită inferioară de , precum corelația pătratică a lui Pearson Pe fig valorile prezise și adevărate sunt puternic corelate cu R fiind aproape Se pare că în acest sistem procesul de autoînvățare a făcut remarcă Valori prezise versus adevărate (Pearson R : , ) Orez Coeficientul de corelație Pearson Plot Derivation Regresie liniară și logistică cu Tensorflow | muncă grea și a învățat cu succes adevărata regulă Dar să nu ne grăbim Veți observa că scara celor două axe din fig nu este la fel! Se pare că R nu penalizează diferențele de scară Pentru a înțelege ce sa întâmplat în acest sistem, trebuie să luăm în considerare o metrică alternativă în Fig Model adevărat vs Model antrenat (RMS: , ) Orez Trasarea erorii rădăcină medie pătratică (RMSE) RMSE este o măsură a diferenței medii dintre valorile prezise și valorile adevărate Pe fig În Figura , trasăm valorile prezise și etichetele adevărate ca două caracteristici separate, folosind punctele de date X ca axa noastră Rețineți că o linie învățată nu este o funcție adevărată! RMSE este situat relativ sus și diagnostichează eroarea, spre deosebire de R , care nu a surprins această eroare Ce s-a întâmplat în acest sistem? De ce biblioteca TensorFlow nu a învățat funcția corectă în ciuda faptului că a fost antrenată până la punctul de convergență? Acest exemplu ilustrează bine unul dintre deficiențele algoritmilor de coborâre a gradientului Nu dau nicio garantie ca se va gasi solutia potrivita! Algoritmul de coborâre a gradientului poate rămâne blocat într-un minim local Adică, poate găsi soluții care arată bine, dar nu sunt de fapt cel mai mic minim al funcției de pierdere C Atunci de ce să folosiți coborârea în gradient? Pentru sistemele simple este într-adevăr adesea mai bine să evitați coborârea gradientului și să utilizați alți algoritmi care au garanții de performanță mai mari Cu toate acestea, în sistemele complexe precum cele pe care vi le vom arăta în capitolele următoare, nu există încă algoritmi alternativi care depășesc coborârea gradientului Vă încurajăm să țineți cont de acest fapt pe măsură ce ne aprofundăm în auto-învățare profundă I Capitolul Regresia logistică în TensorFlow În această secțiune, vom defini un clasificator simplu folosind TensorFlow În primul rând, merită să luăm în considerare care este ecuația pentru clasificator Un truc matematic comun este folosirea funcției sigmoid, sau sigmoid Sigmoidul prezentat în fig , denumit în mod obișnuit c, este maparea numerelor reale R la ( , ) Această proprietate este convenabilă prin faptul că putem interpreta ieșirea din sigmoid ca fiind probabilitatea unui eveniment (Trucul ingenios de a converti evenimente discrete în valori continue este un subiect transversal în învățarea automată ) Orez Reprezentarea grafică a funcției sigmoide Ecuațiile pentru prezicerea probabilităților unei variabile discrete care ia valoarea sau sunt prezentate mai jos Aceste ecuații definesc un model de regresie logistică simplă: ^O=o(wx + Z>); yl = lc(wx + Z>) TensorFlow oferă funcții utilitare pentru calcularea pierderilor de entropie încrucișată pentru valorile sigmoidale Cea mai simplă dintre aceste funcții este tf nn sigmoid cross entropy with iogits() (Operația matematică de luare a logaritmului (log) este inversul sigmoidului În practică, aceasta înseamnă pur și simplu trecerea argumentului wx + b al sigmoidului direct la TensorFlow în loc de valoarea sigmoidului c (ux + b) în sine ) Vă recomandăm să folosiți implementarea TensorFlow în loc de a determina manual entropia încrucișată, deoarece atunci când există probleme numerice în calcularea pierderii de entropie încrucișată Exemplul - definește un model de regresie logistică simplă în TensorFlow Exemplul Definirea unui model de regresie logistică simplă i # Generați graficul tensorflow cu tf name scope("substituenți"): # Rețineți că x puncte de date sunt bidimensionale x = tf placeholder(tf float , (n, )) y = tf placeholder(tf float , (N,)) Regresia liniară și logistică cu TensorFlow | cu tf name scope("greutăți"): W = tf Variable(tf random normal(( , ))) b = tf Variable(tf random normal(( ,))) cu tf name scope("predicție"): y logit = tf squeeze(tf matmul(x, W) + b) # Sigmoid oferă clasa probabilitate y one prob = tf sigmoid(y logit) # Rotunjirea P(y=l) va oferi predicția corectă y pred = tf round(y one prob) cu tf name scope("pierdere"): # Calculați termenul de entropie încrucișată pentru fiecare punct de date entropy = tf nn sigmoid cross entropy with logits(logits=y logit, labels=y) # Însumează toate contribuțiile = tf reduce sum(entropie) cu tf name scope("optim"): train op = tf tren AdamOptimizer( ) minimize( ) train writer = tf summary FileWriter('/tmp/logistic-train', tf get default graph()) Codul de antrenament pentru acest model din Exemplul este identic cu codul pentru modelul de regresie liniară j Exemplul Antrenarea unui model de regresie logistică n pași = cu tf SessionO ca sess: sess run(tf global variables initializer()) # Antrenează modelul pentru i în interval (n pași): feed dict = {x: x np, y: y np} , summary, loss = sess run([train op, merged, ], feed dict=feed dict) prinț("pierdere: %f" % pierdere) train writer add summary(rezumat, i) Vizualizarea modelelor de regresie logistică cu TensorBoard Ca și înainte, puteți folosi TensorBoard pentru a reda modelul Începeți prin a vizualiza funcția de pierdere (Figura ) Rețineți că, ca și înainte, funcția de pierdere urmează un model clar Există o scădere bruscă a pierderii, urmată de netezire treptată De asemenea, puteți vizualiza graficul TensorFlow în TensorBoard Deoarece structura spațiilor de nume este similară cu structura utilizată pentru regresia liniară, graficul simplificat arată aproape identic (Figura ) I Capitolul TensorBoard IMAGINI SCALARE AUDIO Utilizați o expresie regex pentru a crea un grup de etichete X Q Împărțiți pe subliniere Descărcarea datelor QJ tinks Metoda de sortare a balonului explicativ: implicit Netezire - Axă orizontală ETAPA PERETE RELATIV Aleargă Wnte o regex pentru a filtra rulările rezumate rezumate/pierdere , , Orez Vizualizarea funcției de pierdere de regresie logistică Orez Vizualizarea unui grafic computațional pentru regresia logistică (optim - optimizare, pierdere - pierdere; predicție - predicție; substituenți - substituenți; ponderi - ponderi) Regresia liniară și logistică cu TensorFlow | Orez Grafic de calcul extins pentru regresia logistică | capitolul Cu toate acestea, dacă extindeți nodurile din acest grafic grupat, veți descoperi că graficul de calcul subiacent este diferit (Figura ) În special, funcția de pierdere este destul de diferită de cea utilizată pentru regresia liniară (cum ar trebui să fie) Metrici pentru evaluarea modelelor de clasificare Acum că ați antrenat un model de clasificare pentru regresia logistică, trebuie să vă familiarizați cu metricile care sunt adecvate pentru evaluarea modelelor de clasificare Deși ecuațiile pentru regresia logistică sunt mai complexe decât cele pentru regresia liniară, metricile de evaluare de bază sunt mai simple Precizia clasificării testează pur și simplu proporția punctelor de date care sunt clasificate corect de modelul învățat De fapt, cu puțin mai mult efort, puteți deriva o linie de despărțire din ecuațiile de regresie logistică învățate de modelul de regresie logistică Această linie reprezintă limita pe care modelul a învățat să separe cazurile de utilizare pozitive și negative (Lăsăm derivarea acestei linii din ecuații ca un exercițiu pentru cititorul interesat Soluția este în codul pentru această secțiune ) Arătăm clasele învățate și o linie de despărțire în Fig Rețineți că linia separă în mod clar exemplele pozitive și negative și are o precizie perfectă ( ) Acest rezultat ridică un punct interesant Regresia este adesea mai dificilă decât clasificarea Există multe linii posibile care separă clar punctele de date din Fig și doar unul care se potrivește perfect cu datele pentru regresia liniară Orez Vizualizați clasele învățate și împărțiți linia pentru regresia logistică Regresia liniară și logistică cu TensorFlow | rezumat În acest capitol, v-am arătat cum să construiți și să antrenați câteva sisteme simple de învățare TensorFlow Am început prin a analiza câteva concepte matematice fundamentale, inclusiv funcția de pierdere și coborârea gradientului Apoi v-am prezentat câteva concepte noi TensorFlow, cum ar fi substituenți, spații de nume și pachetul de vizualizare TensorBoard Am încheiat capitolul cu exemple practice care au antrenat sisteme de regresie liniară și logistică pe seturi de date despre jucării Am acoperit destul de mult material în acest capitol și este în regulă dacă nu ați stăpânit încă totul Materialul de bază prezentat aici va fi folosit în restul acestei cărți În capitolul , vă vom prezenta primul model de deep learning și rețelele complet conectate și vă vom arăta cum să definiți și să antrenați rețelele complet conectate în TensorFlow În capitolele următoare, ne vom uita la rețele profunde mai complexe, dar toate aceste arhitecturi vor folosi aceleași principii fundamentale de auto-învățare ca și în acest capitol I Capitolul CAPITOLUL Rețele profunde complet conectate Acest capitol vă va prezenta rețelele profunde complet conectate, caii de lucru ale auto-învățarii profunde utilizate în mii de aplicații Principalul avantaj al rețelelor complet conectate este că sunt "agnostice din punct de vedere structural", adică nu trebuie să facem ipoteze speciale despre natura intrării (de exemplu, că intrarea constă din imagini sau videoclipuri) Vom folosi această versatilitate a rețelelor profunde complet conectate pentru a le aplica unei probleme de modelare chimică mai târziu în acest capitol Ne aprofundăm pe scurt în teoria matematică din spatele rețelelor complet conectate În special, vom explora ideea că arhitecturile complet conectate sunt "aproximatori universali" capabili să învețe orice funcție Această idee explică versatilitatea unei arhitecturi complet plasate, dar cu multe avertismente, despre care vom discuta Deși natura structural agnostică a rețelelor complet conectate le permite să fie utilizate pe scară largă în practică, astfel de rețele tind să aibă performanțe mai scăzute decât rețelele ad-hoc adaptate la structura spațiului subiect Vom discuta câteva dintre limitările arhitecturilor complet mesh mai târziu în acest capitol Ce este o rețea profundă complet conectată? O rețea neuronală complet conectată constă dintr-o serie de straturi complet conectate Un strat complet conectat este o mapare din spațiu în spațiul R Fiecare dimensiune de ieșire depinde de fiecare dimensiune de intrare Vizual, un strat complet conectat este reprezentat așa cum se arată în Fig Să ne aprofundăm puțin în forma matematică a unei rețele complet conectate Fie x e să reprezinte intrarea unui strat complet conectat și fie R a i-a ieșire a unui strat complet conectat Apoi ux g R se calculează după cum urmează: Уі = n(w x,+ + wmxm), unde a este o funcție neliniară (deocamdată, considerăm a ca funcția sigmoidă introdusă în capitolul anterior); - parametrii memorați în rețea Ieșirea completă a lui y are apoi forma: CT(M' IX + + WImXm) >) + a||Ѳ||, unde ||Ѳ|| ||Ѳ|| -penalizare de greutate; - parametru configurabil Două opțiuni comune pentru o penalizare sunt penalizările Z și L Rețele profunde complet conectate | unde ||Ѳ|| și ZѲц, denotă penalitățile Z, și, respectiv, G Din experiența personală, aceste penalități sunt în general mai puțin utile pentru modelele profunde decât abandonul și oprirea timpurie Unii practicieni încă folosesc regularizarea greutății, așa că merită cu siguranță să analizăm cum să aplici aceste penalități atunci când creează rețele profunde Instruirea rețelelor complet conectate Antrenarea unei rețele complet conectate necesită mai multe trucuri dincolo de cele pe care le-ați văzut până acum în această carte În primul rând, spre deosebire de capitolele anterioare, vom antrena modele pe seturi mari de date Având în vedere aceste seturi de date, vă vom arăta cum să utilizați mini-lotul pentru a accelera coborârea gradientului În al doilea rând, vom reveni la subiectul stabilirii vitezelor de învățare mini impachetare În cazul seturilor mari de date (care ar putea să nu încapă nici măcar în RAM), nu există nicio modalitate de a calcula gradienții pe setul complet de date la fiecare pas În schimb, practicienii selectează adesea o mică bucată de date (de obicei - de puncte de date) și calculează un gradient peste acele puncte de date Această mică bucată de date se numește în mod tradițional mini-lot În practică, mini-gruparea pare să promoveze convergența, deoarece se pot face mai mulți pași de coborâre a gradientului cu aceeași cantitate de calcul Dimensiunea corectă a mini-lot este o chestiune empirică și este adesea abordată prin reglarea hiperparametrică Vitezele de învățare Rata de învățare determină cât de important este fiecare pas de coborâre în gradient Setarea ratei corecte de învățare poate fi dificilă Mulți utilizatori începători în rețea profundă stabilesc incorect ratele de învățare și sunt surprinși să constate că modelele lor nu se antrenează sau nu încep să returneze valori NaN (nedefinite) Această situație s-a îmbunătățit semnificativ odată cu dezvoltarea unor metode precum ADAM , care simplifică foarte mult alegerea vitezei de învățare Cu toate acestea, dacă modelele nu învață nimic, atunci merită să reglați cu precizie rata de învățare Adam (Adaptive Moment Estimation) este o actualizare a optimizatorului RMSProp Acest algoritm de optimizare utilizează medii mobile atât ale gradienților, cât și ale secundelor momente ale gradienților RMSProp (Adaptive Moving Average Gradient Method) este o metodă adaptivă de auto-învățare fără compresie a ratei de învățare Vezi Wikipedia https://en wikipedia Org/wiki/Stochastic gradient descent#Adam - Aprox pe | capitolul Implementare în TensorFlow În această secțiune, vom arăta cum să implementăm o rețea complet conectată în TensorFlow Nu va trebui să vă prezentăm aici multe dintre noile primitive TensorFlow, deoarece am acoperit deja marea majoritate a elementelor de bază necesare Instalare DeepChem În această secțiune, veți folosi setul de instrumente de învățare automată DeepChem (unul dintre autorii cărții a fost creatorul DeepChem) pentru experimentele dvs Instrucțiuni detaliate pentru instalarea DeepChem pot fi găsite online (https://deepchem io), dar rețineți că instalarea distribuției Anaconda folosind instrumentul conda este probabil cea mai convenabilă Setul de date Tox Pentru exemplul nostru de modelare, vom folosi un set de date chimice Toxicologii sunt foarte interesați să folosească învățarea automată pentru a prezice dacă un anumit compus chimic va fi toxic sau nu Această sarcină este extrem de dificilă, deoarece știința modernă are doar o înțelegere limitată a proceselor metabolice care au loc în corpul uman Cu toate acestea, biologii și chimiștii au dezvoltat un set limitat de experimente care oferă dovezi pentru toxicitate Dacă un compus chimic atinge marca într-unul dintre aceste experimente, atunci este probabil să fie toxic pentru oameni dacă este consumat intern Cu toate acestea, aceste experimente sunt adesea costisitoare, așa că oamenii de știință de date caută să construiască modele de învățare automată care să poată prezice rezultatele acestor experimente pe noi molecule Una dintre cele mai importante colecții de date toxicologice se numește Tox A fost lansat de National Institutes of Health (NIH) și de Agenția pentru Protecția Mediului din SUA (EPA) ca parte a unei inițiative de știință a datelor și a fost folosit ca set de date în competiția de construire a modelelor Câștigătorul acestei competiții a folosit rețele multitasking complet conectate (o variantă a rețelelor complet conectate în care fiecare rețea prezice mai multe valori pentru fiecare punct de date) Vom analiza unul dintre seturile de date de colectare Tox Acest set de date constă din de molecule testate pentru interacțiunea cu receptorul de androgeni Provocarea competitivă în știința datelor este de a prezice dacă noi molecule vor interacționa cu receptorul de androgeni Procesarea acestui set de date poate fi dificilă, așa că vom folosi colecția de seturi de date MoleculeNet organizată de proiectul DeepChem Fiecare moleculă din Tox este procesată de proiectul DeepChem într-un vector de de biți Încărcarea unui set de date este, prin urmare, câteva apeluri simple către DeepChem (Exemplul ) Rețele profunde complet conectate | Exemplul Se încarcă setul de date Tox import deepchem ca de (tren, valid, test), = dc molnet Ioad tox () train X, train y, train w = train X, train y, train w valid X, valid y, valid w = valid X, valid y, valid w test X, test y, test w = test X, test y, test w Aici variabilele x conțin vectorii caracteristici procesate, variabilele y conțin etichetele, iar variabilele w conțin ponderile cazurilor Etichetele sunt binare / pentru compușii chimici care interacționează sau nu cu receptorul de androgeni Tox conține seturi de date dezechilibrate, unde există mult mai puține cazuri pozitive decât cele negative Variabilele w conțin ponderea recomandată pentru fiecare caz de utilizare, ceea ce pune mai mult accent pe cazurile de utilizare pozitive (creșterea importanței cazurilor de utilizare rare este o tehnică obișnuită pentru gestionarea seturilor de date dezechilibrate) Pentru simplitate, nu vom folosi aceste greutăți în timpul antrenamentului Toate aceste variabile sunt tablouri NumPy Există mai multe seturi de date în Tox decât vom analiza aici, așa că trebuie să eliminăm etichetele asociate cu aceste seturi de date suplimentare (Exemplul ) Exemplul Eliminarea seturilor de date suplimentare din Tox # Eliminați sarcinile redundante train y = train y[:, ] valid y = valid y[:, ] test y = test y[:, ] train w = train w[:, ] valid w = valid w[:, ] test w = test w[:, ] Acceptarea mini-pachetelor de substituent În capitolele anterioare, am creat substituenți care au luat argumente de dimensiune fixă Când lucrați cu date mini-loturi, este adesea convenabil să puteți servi pachete de dimensiuni variabile Să presupunem că setul de date conține de elemente Apoi, cu o dimensiune a mini-lot de de articole, ultimul lot va avea de articole Acest lucru va bloca codul din Capitolul Din fericire, TensorFlow oferă o soluție ușoară: utilizarea None ca argument de dimensiune pentru substituent permite substituentului să accepte tensori de dimensiune arbitrară într-o anumită dimensiune (Exemplul - ) | capitolul ; Exemplul Definiția substituenților, ! care acceptă mini saci de diferite dimensiuni d= cu tf name scope("substituenți"): x = tf placeholder(tf float , (Niciunul, d)) y = tf placeholder(tf float , (Niciunul,)) Rețineți că d este egal cu , adică dimensiunile vectorilor noștri caracteristici Implementarea stratului ascuns Codul pentru implementarea stratului ascuns este foarte asemănător cu codul pe care l-am văzut în capitolul anterior pentru implementarea regresiei logistice, așa cum se arată în Exemplul i Exemplul Definiția stratului ascuns I cu tf name scope("hidden-layer"): W = tf Variable(tf random normal((d, n hidden))) b = tf Variable(tf random normal((n hidden,))) x hidden = tf nn relu(tf matmul(x, W) + b) Folosim funcția tf name scope() pentru a grupa variabilele introduse Rețineți că folosim forma matriceală a unui strat complet conectat Am ales forma xW în loc de Wx pentru a trata mai convenabil fiecare mini-lot de date de intrare pe rând (Ca exercițiu, încercați să stabiliți dimensiunile adecvate pentru a vedea de ce este cazul ) În cele din urmă, aplicăm transformarea ReLU neliniară cu funcția de activare tf încorporată nn releu() Restul codului de programare pentru stratul complet conectat este foarte asemănător cu codul folosit pentru regresia logistică în capitolul anterior Pentru a fi complet, în Exemplul am inclus codul complet utilizat pentru definirea rețelei Ca o reamintire, codul complet pentru toate modelele este disponibil în depozitul GitHub asociat cu această carte Vă recomandăm insistent să încercați singur acest cod i Exemplul Definirea unei arhitecturi complet conectate i cu tf name scope("substituenți"): x - tf placeholder(tf float , (Niciunul, d)) y = tf placeholder(tf float , (Niciunul,)) cu tf name scope("hidden-layer"): W = tf Variable(tf random normal((d, n hidden))) b - tf Variable(tf random normal((n hidden,))) x hidden - tf nn relu(tf matmul(x, W) + b) Rețele profunde complet conectate | cu tf name scope("ieșire"): W = tf Variable(tf random normal((n hidden, ))) b = tf Variable(tf random normal(( ,))) y logit = tf matmul(x hidden, W) + b # Sigmoid oferă clasa probabilitate y one prob = tf sigmoid(y logit) # Rotunjirea P(y=l) va da predicția corectă y pred = tf round(y one prob) cu tf name scope("pierdere"): # Calculați termenul de entropie încrucișată pentru fiecare punct de date y expand = tf expand dims(y, ) entropy = tf nn sigmoid cross entropy with logits(logits=y logit, abe s=y expand) # Însumează toate contribuțiile = tf reduce sum(entropie) cu tf name scope("optim"): train op = tf train AdamOptimizer(learning rate) minimize( ) cu tf name scope("rezumate"): tf summary scalar("pierdere", ) îmbinat = tf summary merge all() Adăugați abandon la stratul ascuns Biblioteca TensorFlow se ocupă de implementarea abandonului pentru noi în primitiva tf nn dropout(x, keep prob) încorporată, unde keep prob este probabilitatea ca orice nod dat să rămână Amintiți-vă din discuția noastră anterioară că vrem să activăm abandonul în timpul antrenamentului și să îl dezactivăm în timpul predicțiilor Pentru a gestiona acest lucru corect, introducem un nou substituent pentru sonda de păstrare, așa cum se arată în Exemplul ' Exemplul Adăugarea substituentului pentru probabilitatea de abandon Aplicați straturi de referință Reducerea graficului ( - Cere k - grade(v) pentru și în neigh(v) " și apoi împărțiți fișierul într-o listă de jetoane ■ Exemplul Funcție de citire a fișierului corpus brut Repp Treebank | def read words(nume fișier): cu tf gfile GFile(nume fișier, "r") ca f: dacă sys version info[ ] >= : returnează f read() replace("\n", " ") split() altfel: return f read() decode("utf- ") replace("\n", " ") split() Cu funcția read wordsO definită, putem construi dicționarul asociat fișierului dat folosind funcția build vocab() definită în Exemplul - Pur și simplu citim cuvintele dintr-un fișier și numărăm numărul de cuvinte unice din acesta folosind biblioteca de coiiections încorporată a lui Python Pentru comoditate, construim un obiect dicționar care mapează cuvintele la identificatorii lor unici întregi (pozițiile lor în dicționar) Legând totul împreună, funcția fiie to word ids convertește fișierul într-o listă de word id-uri (Exemplu - ) i Exemplul O funcție pentru a construi un dicționar format din toate cuvintele dintr-un fișier dat def build vocab(nume fișier): date = read words(nume fișier) counter = coiiections Counter(data) count pairs = sortat(counter items(), cheie=lambda x: (-x[l], x[ ])) cuvinte, = listă(zip(*count pairs)) word to id = dict(zip(words, range(len(words)))) returnează word to id cm http://www statmt org/lm-benchmark/ - Aprox pe Rețele neuronale recurente | î Exemplul Funcție de conversie a cuvântului din fișier în identificatori numerici i def file to word ids(nume fișier, word to id): date = read words(nume fișier) returnează [word to id[word] pentru cuvânt în date dacă cuvânt în word to id] Cu aceste funcții de serviciu implementate, putem procesa corpus Repp Treebank cu funcția ptb raw data() (Exemplul ) Rețineți că seturile de date de antrenament, control și testare sunt predefinite, așa că tot ce trebuie să facem este să citim fiecare fișier într-o listă de indecși unici Exemplul Funcția de încărcare a datelor Repp Treebank Corpus dintr-o locație dată def ptb raw data(data path=None): """Încărcați date brute RTV din directorul de date "data path" Citește un fișier text PTB, convertește valorile șirurilor de caractere în identificatori întregi și mini-pachetează intrarea Setul de date RTV este preluat de pe pagina web a lui Thomas Mikolov: http://www fit vutbr cz/~imikolov/rnnlm/simple-examples tgz Argumente: data path: calea șirului către directorul de unde a fost extrasă arhiva simple-examples tgz Valori returnate: tuplu (train data, valid data, test data, vocabular) unde fiecare obiect de date poate fi transmis către PTBIterator p p p train path == os path join(data path, "ptb train txt") valid path = os path join(data path, "ptb valid txt") test path = os path join(data path, "ptb test txt") word to id = build vocab(train path) train data = file to word ids(train path, word to id) valid data =* file to word ids(valid path, word to id) test data = file to word ids (test path, word to id) vocabular = len (word to id) returnează date tren, date valide, date test, vocabular tf GFile ȘI tf Flags obiecte TensorFlow este un proiect mare care conține multe fragmente și componente Deși marea majoritate a bibliotecii este dedicată învățării automate, există și o parte semnificativă care se referă la încărcarea și masarea datelor Unele dintre aceste caracteristici | Capitolul oferă funcții utile care nu sunt disponibile în altă parte Cu toate acestea, alte părți ale funcționalității de boot sunt mai puțin utile Wrapper-ul tf GFile pentru operațiuni I/O non-blocante și routerul de import tf Flags oferă funcționalități care sunt mai mult sau mai puțin identice cu gestionarea fișierelor standard Python și cu biblioteca argparse încorporată Originea acestor instrumente este istorică Standardele interne de programare ale Google necesită propriile gestionări de fișiere și gestionarea semnalizărilor Cu toate acestea, pentru noi ceilalți, cel mai bine este să rămânem cu instrumentele standard Python ori de câte ori este posibil pentru lizibilitate și stabilitate Încărcarea datelor în TensorFlow În această secțiune, vom parcurge codul necesar pentru a încărca indecșii noștri randați în TensorFlow Pentru a face acest lucru, vă vom prezenta noul motor TensorFlow Până acum, am folosit dicționare speciale pentru a transmite date către TensorFlow În timp ce dicționarele de transfer de date sunt bune pentru seturile de date mici de jucărie, ele nu sunt adesea o opțiune bună pentru seturile de date mari, deoarece Python adaugă multă suprasarcină asociată cu împachetarea și despachetarea dicționarelor Pentru a obține un cod mai performant, este mai bine să utilizați cozile TensorFlow Obiectul tf Queue vă permite să încărcați date asincron Acest lucru face posibilă separarea firului de calcul al GPU de firul de preprocesare a datelor, limitat de capacitățile CPU Această decuplare este utilă în special pentru seturile de date mari în care dorim să menținem GPU-ul activ cât mai mult posibil Obiectele tf Queue pot fi introduse în substituenții TensorFlow pentru a antrena modele și a obține performanțe mai bune Mai târziu, în acest capitol, vom demonstra cum se face acest lucru Funcția ptb producer furnizată în Exemplul - convertește listele de indici bruti în cozi tf Queue care pot alimenta date într-un grafic de calcul TensorFlow Să începem prin a introduce unele dintre primitivele de calcul pe care le vom folosi Funcția tf train range input producer este o operațiune de confort care creează un tf Queue din tensorul de intrare Metoda tf Queue dequeueO preia un tensor din coadă pentru antrenament Funcția tf strided slice() preia o porțiune din acest tensor care se potrivește cu datele din minibatch-ul curent Exemplul Funcție de încărcare a datelor corpus ale Repp Treebank dintr-o locație dată def ptb producer(raw data, batch size, num steps, name=None): """Parcurge iterativ datele brute PTB Acest cod fragmentează raw data în pachete de probă și returnează tensorii luați din acele pachete Rețele neuronale recurente | Argumente: raw data este o bucată de date brute preluată de la ptb raw data batch size - dimensiunea lotului întreg num steps - numărul întreg de măturări, pas - numele acestei operații (opțional) Valori returnate: O pereche de tensori, fiecare cu forma [batch size, num steps] Al doilea element al tuplului este aceleași date deplasate în timp spre dreapta cu o poziție Aruncarea de exceptii: tf errors InvalidArgumentError: dacă batch size sau num steps este prea mare O"""" cu tf name scop(paste, "PTBProducer", [date brute, dimensiunea lot, num steps]): raw data = tf convert to tensor(raw data, name="raw data", dtype=tf int ) data len = tf size(raw data) batch len = data len // batch size date = tf reshape(raw data[ : batch size * batch len], [batch size, batch len]) epoch size = (batch len - ) // num steps aserțiune = tf assert positive( epoch size, message="epoch size == , reduce batch size or num steps") cu tf control dependencies([assertion]): epoch size = tf identity(epoch size, name="epoch size") i = tf train range input producer(epoch size, shuffle=False) dequeue() x = tf strided slice(date, [ , i * num steps], [batch size, (i + ) * num steps]) X set shape([batch size, num steps]) y = tf strided slice(date, [ , i * num steps + ], [batch size, (i + ) * num steps + ]) y set shape([batch size, num steps]) returnează x, y tf modul de date TensorFlow (din versiunea ) acceptă un nou modul tf data cu o nouă clasă tf data Dataset care oferă un API specific pentru a reprezenta fluxurile de date Este probabil ca tf data să o facă în cele din urmă | Capitol? în cele din urmă vor înlocui cozile ca mecanism de introducere preferat, mai ales că au un API funcțional bine gândit La momentul scrierii, modulul tf data tocmai a fost lansat și este încă relativ brut în comparație cu alte părți ale API-ului, așa că am decis să rămânem cu cozile pentru exemplele noastre Cu toate acestea, vă recomandăm să vă familiarizați cu modulul tf data Arhitectură recurentă de bază Vom folosi o celulă LSTM pentru a modela datele din corpus Repp Treebank, deoarece LSTM-urile oferă adesea performanțe superioare pentru sarcinile de modelare lingvistică Funcția tf contrib rnn BasicLSTMCeiio implementează o celulă LSTM de bază pentru noi, deci nu este nevoie să scriem noi înșine un astfel de cod (Exemplul - ) I Exemplul Funcția de împachetare celulară LSTM din tf contrib I L ! def lstm cell(): returnează tf contrib rnn BasicLSTMCeii( dimensiune, forget bias= , state is tuple=True, reutilizare=tf get variable scope() reutilizare) Este ok să folosești codul de la TensorFlow contrib? Rețineți că implementarea LSTM pe care o folosim este din modulul tf contrib Este acceptabil să folosiți codul de la tf contrib pentru proiecte industriale? Nu există încă un consens în acest sens Din experiența noastră personală, codul din tf contrib este mai instabil decât codul din biblioteca principală TensorFlow, dar este de obicei destul de stabil Adesea, multe biblioteci utile și funcții de serviciu sunt disponibile numai în tf contrib Vă recomandăm să folosiți fragmentele din tf contrib după cum este necesar, dar faceți-vă un obicei din a înlocui fragmentele pe care le utilizați cu echivalentele lor TensorFlow dacă apar în biblioteca principală Fragmentul de cod din Exemplul - îi spune TensorFlow să învețe încorporarea dicționarului pentru fiecare cuvânt din dicționarul nostru Funcția cheie pentru noi este funcția tf nn embedding lookup(), care ne permite să efectuăm operația corectă de căutare a tensorului Rețineți că trebuie să definim manual matricea de încorporare ca o variabilă TensorFlow Exemplul Învățarea înglobării vocabularului pentru fiecare cuvânt într-un dicționar cu tf device("/cpu: "): încorporare = tf get variable( "încorporare", [vocab size, size], dtype=tf float ) inputs = tf nn embedding lookup(embedding, input input data) cernu neural recurent | Cu vectorii de cuvinte în mână, tot ce trebuie să facem este să aplicăm celula LSTM (folosind funcția istm ceiio) fiecărui vector de cuvinte din secvență Pentru a face acest lucru, folosim bucla Python for, care construiește setul necesar de apeluri seii o Există un singur truc aici: trebuie să ne asigurăm că folosim aceleași variabile în fiecare interval de timp, deoarece celula LSTM trebuie să efectueze aceeași operație în fiecare interval de timp Din fericire, metoda reuse variabies() pentru domenii variabile vă permite să faceți acest lucru fără prea mult efort (Exemplul - ) Exemplul Aplicarea unei celule LSTM fiecărui vector cuvânt din secvența de intrare ieșiri = [] stare = seif stare inițială cu tf variable scope ("RNN"): pentru time step in range(num steps): dacă time step > : tf get variable scope() reuse variables() (cel ieșire, stare) = cell(inputs[:, time step, :], state) outputs append(cell output) Acum rămâne doar să se determine pierderea asociată cu graficul pentru a antrena acest grafic Și în mod convenabil, biblioteca TensorFlow din tf contrib oferă o pierdere a datelor de antrenament ale modelelor de limbă Tot ce trebuie să faceți este să apelați tf contrib seg seq sequence ioss (Exemplul - ) În culise, această pierdere se dovedește a fi o formă de nedumerire Exemplul Adăugarea pierderii la o secvență # Utilizați funcția de pierdere pentru secvența din contrib # și medie pentru toate pachetele pierdere = tf contrib seq seq sequence loss( logits, input targets, tf ones([batch size, num steps], dtype=tf float ), average across timesteps=False, average across batch=Adevărat # Actualizați variabilele de cost seif cost = cost tf reduce sum(pierdere) Nedumerire Metrica de perplexitate este adesea folosită pentru probleme de modelare a limbajului Această măsurătoare este o variantă a entropiei încrucișate binare care este utilizată pentru a măsura cât de aproape este distribuția învățată a datelor de distribuția adevărată Din punct de vedere empiric, scorul de perplexitate s-a dovedit a fi util pentru | Capitol? multe sarcini de modelare a limbajului și o folosim aici ca atare (deoarece sequence loss doar implementează perplexitatea adaptată secvențelor care se află în interior) Putem apoi antrena acest grafic folosind metoda standard de coborâre a gradientului Am omis unele dintre detaliile complicate ale codului de bază, dar vă sugerăm să verificați GitHub dacă sunteți interesat Evaluarea calității unui model antrenat este, de asemenea, simplă, deoarece perplexitatea este folosită ca o pierdere a datelor de antrenament și ca un scor metric Ca rezultat, pentru a urmări procesul de antrenament al modelului, putem afișa pur și simplu seif cost Vă recomandăm să antrenezi singur modelul! Sarcina pentru cititor Încercați să reduceți nedumerirea asupra datelor corpus Repp Treebank experimentând diferite arhitecturi de model Vă rugăm să rețineți că fără un GPU, aceste experimente pot dura mult timp rezumat Acest capitol v-a prezentat rețelele neuronale recurente (RNNs), o arhitectură puternică care învață din date secvențiale RNN-urile sunt capabile să învețe regula evolutivă de bază care guvernează secvența datelor Deși RNN-urile pot fi folosite pentru a modela serii cronologice simple, ele sunt cele mai eficiente atunci când modelează date secvențiale complexe, cum ar fi vorbirea și limbajul natural V-am prezentat o serie de variante de RNN, cum ar fi celulele LSTM și GRU-urile, care funcționează mai bine cu date cu interacțiuni complexe pe termen lung și, de asemenea, am făcut o scurtă digresiune pentru a discuta perspectiva interesantă a mașinilor Neural Turing Am încheiat capitolul cu un studiu de caz aprofundat în care celulele LSTM au fost aplicate pentru a simula corpul unui Repp Treebank În capitolul , vă prezentăm o tehnică puternică de auto-învățare care maximizează întărirea, care permite sistemelor profunde să învețe cum să joace jocuri Rețele neuronale recurente | CAPITOLUL Auto-învățare cu maximizarea întăririi Metodele de autoînvățare pe care le-am trecut în revistă se încadrează în categoriile de autoînvățare supravegheată sau nesupravegheată În ambele cazuri, sarcina la îndemână necesită ca analistul de date să proiecteze o arhitectură profundă care manipulează și procesează datele de intrare și conectează ieșirea arhitecturii la o funcție de pierdere care este adecvată pentru sarcina în cauză Acest cadru matematic este aplicabil pe scară largă, dar nu toate aplicațiile se încadrează perfect în acest stil de gândire Să luăm în considerare problema antrenării unui model de învățare automată pentru a câștiga un joc de șah Pare rezonabil să tratăm tabla de șah ca o intrare spațială folosind o rețea convoluțională, dar ce funcție de pierdere ar implica asta? Niciuna dintre funcțiile noastre standard de pierdere, cum ar fi entropia încrucișată sau pierderea Z, , nu se aplică Auto-învățarea cu maximizarea întăririi oferă un cadru matematic care este bine potrivit pentru rezolvarea problemelor de joc Conceptul matematic central este procesul de decizie Markov, un instrument pentru modelarea agenților AI care interacționează cu medii care oferă recompense la finalizarea anumitor acțiuni Acest cadru și-a dovedit flexibilitatea și versatilitatea și a găsit o serie de aplicații în ultimii ani Este demn de remarcat faptul că auto-învățarea cu maximizarea întăririi ca domeniu de studiu este destul de matur și a existat într-o formă recunoscută încă din anii Cu toate acestea, până de curând, majoritatea sistemelor de învățare cu maximizare a întăririi erau capabile doar să rezolve problemele jucăriilor Studii recente au arătat că aceste limitări par să fi existat din cauza lipsei unor mecanisme sofisticate de asimilare a datelor; pentru multe jocuri sau medii robotizate, caracteristicile realizate manual nu erau adesea suficiente Se pare că extracțiile de reprezentare profunde antrenate end-to-end pe hardware-ul modern au depășit barierele sistemelor de învățare de maximizare a consolidării anterioare în ultimii ani și au obținut rezultate semnificative Poate că prima descoperire în auto-învățare profundă cu maximizarea întăririi a venit cu jocurile arcade AT ARI Jocurile arcade AT ARI au fost prezentate în mod tradițional în arcade și oferă utilizatorilor jocuri simple care de obicei nu necesită strategii complexe, dar pot necesita reflexe bune Pe fig arată o captură de ecran dintr-un joc popular ATARI Breakout În ultimii ani, odată cu dezvoltarea unui software bun de emulare ATARI, jocurile ATARI au devenit un teren de testare pentru algoritmii de joc În prima etapă, algoritmii de învățare cu maximizare a întăririi, așa cum sunt aplicați ATARI, nu au putut obține rezultate excelente; cerința tehnică ca algoritmul să înțeleagă starea jocului video a eșuat în majoritatea încercărilor Cu toate acestea, pe măsură ce rețelele convoluționale s-au maturizat, cercetătorii de la DeepMind au realizat că rețelele convoluționale pot fi combinate cu metodele existente de auto-învățare care maximizează întărirea și se pot antrena de la capăt la capăt Orez Captură de ecran a jocului arcade ATARI Breakout Jucătorii trebuie să folosească paleta din partea de jos a ecranului pentru a lovi mingea care sparge plăcile din partea de sus a ecranului Sistemul rezultat a obținut rezultate excelente și a putut să joace multe jocuri ATARI (în special cele care se bazează pe reflexe rapide) la standarde supraomenești Pe fig arată scorurile ATARI obținut de algoritmul DeepMind DQN în diferite jocuri Această descoperire a stimulat o creștere extraordinară în domeniul învățării de maximizare a consolidării profunde și a inspirat legiuni de cercetători să exploreze potențialul acestor tehnici În același timp, rezultatele DeepMind privind jocurile ATARI au arătat că metodele de auto-învățare cu maximizare a întăririi sunt capabile să rezolve probleme care depind doar de mișcări pe termen scurt Aceste rezultate nu demonstrează că sistemele de învățare profundă sunt capabile să câștige jocuri care necesită mai multă planificare strategică | Capitolul Orez Rezultatele algoritmului de învățare cu maximizare a întăririi DQN de DeepMind pe diferite jocuri ATARI % este scorul unui jucător uman puternic Rețineți că DQN atinge performanțe supraomenești în multe jocuri, dar este destul de slab în altele computer merge În , IBM a introdus sistemul Deep Blue, care mai târziu a putut să-l învingă pe Garry Kasparov într-un meci de șah foarte mediatizat Pentru a juca șah la nivel de mare maestru, acest sistem s-a bazat pe un calcul de forță brută care a extins arborele posibilelor mișcări de șah (cu oarecare ajutor din euristica manuală a șahului) Auto-învățare cu maximizarea întăririi | Informaticii au încercat să aplice tehnici similare altor jocuri precum Go Din păcate pentru primii experimentatori, tabla de joc x Go este mult mai mare decât tabla de șah x Drept urmare, arborii cu posibile mișcări explodează mult mai repede decât în cazul șahului, iar calculele simple și ușor de calculat au arătat că legea lui Moore durează foarte mult timp pentru a produce o soluție de forță brută în stilul Deep Blue la problema jocului merge Situația a fost complicată și mai mult de lipsa unei simple euristice pentru estimarea cine câștigă în mijlocul unui joc de Go (determinarea dacă alb sau negru este în fața este notoriu subiectul unor discuții zgomotoase între analiștii de top) De aceea, până de curând, mulți oameni de știință informaticieni cunoscuți credeau că va dura cel puțin un deceniu pentru a dezvolta un computer puternic Go Pentru a demonstra priceperea algoritmilor săi de învățare, DeepMind a acceptat provocarea de a învăța cum să joace Go, un joc care necesită o planificare strategică complexă În munca lor imaginativă, DeepMind și-a prezentat propriul motor de învățare profundă care maximizează întărirea, AlphaGo, care a combinat rețelele convoluționale cu căutarea în arbore pentru a-l învinge pe Grandmaster Lee Sedol (Figura ) Orez Campionul Go, Lee Sedol, se confruntă cu AlphaGo Lee Sedol a pierdut în cele din urmă meciul cu - , dar a reușit să câștige un singur joc Este puțin probabil ca această victorie să poată fi repetată în legătură cu descendenții semnificativ îmbunătățiți ai AlphaGo, precum AlphaZero Programul AlphaGo a demonstrat în mod convingător că metodele de auto-învățare profunde cu maximizare a întăririi pot învăța să dezlege jocuri de strategie complexe Esența descoperirii a fost realizarea faptului că rețelele convoluționale pot învăța să evalueze cine conduce în mijlocul jocului - negrul | Capitolul sau alb, ceea ce permitea copacilor de vânat să fie tăiați la adâncimi rezonabile (AlphaGo evaluează, de asemenea, care mișcări sunt cele mai profitabile, permițând tăierea a doua oară a spațiului din arborele jocului ) Victoria AlphaGo a adus într-adevăr în prim-plan învățarea profundă care maximizează consolidarea, iar o mulțime de cercetători lucrează acum pentru a transforma sistemele în AlphaGo în implementare practică În acest capitol, vom discuta despre algoritmii de maximizare a consolidării învățării și, în special, despre arhitecturile de învățare profundă bazate pe aceștia Apoi le arătăm cititorilor cum să aplice cu succes întărirea care maximizează auto-învățarea într-un joc de tic-tac-toe În ciuda simplității jocului, antrenarea unui elev de succes pentru tic-tac-toe necesită o sofisticare considerabilă, așa cum vei vedea în curând singur Codul pentru acest capitol este o versiune adaptată a bibliotecii DeepChem pentru auto-învățare cu maximizarea întăririi și, în special, exemplul de cod creat de Peter Eastman și Carl Leswing (Karu Leswing) Îi mulțumesc lui Peter pentru că m-a ajutat să depanez și să modific exemplul de cod pentru acest capitol Procesele de decizie Markov Înainte de a începe o discuție despre algoritmii de învățare cu maximizare a întăririi, va fi util să se definească cu precizie familia de probleme pe care metodele de autoînvățare cu maximizare a întăririi încearcă să le rezolve Cadrul matematic al proceselor de decizie Markov (MDP) este foarte util pentru formularea metodelor de auto-învățare cu maximizare a întăririi În mod tradițional, procesele MDP sunt însoțite de un întreg arsenal de simboluri grecești, dar în schimb vom încerca să continuăm să oferim o intuiție de bază În centrul proceselor MDP se află o pereche formată dintr-un mediu și un agent Mediul codifică "lumea" în care agentul încearcă să opereze Exemplele de medii pot include lumi de joc De exemplu, o placă Go cu Grandmaster Lee Sedol stând vizavi este un mediu valid Un alt mediu potențial ar putea fi mediul din jurul unui elicopter robot mic Într-un experiment de auto-învățare timpuriu, remarcabil și de succes, o echipă de cercetători de la Stanford condusă de Andrew Ng a antrenat un elicopter să zboare inversat folosind auto-învățare care maximizează întărirea (Figura ) Un agent este o entitate de învățare care acționează într-un mediu În primul nostru exemplu, programul AlphaGo în sine este un agent În al doilea exemplu, agentul este un elicopter robot (mai precis, algoritmul de control dintr-un elicopter robot) Fiecare agent are un set de acțiuni pe care le poate efectua în mediu Pentru programul AlphaGo, acestea reprezintă mișcări valide în jocul Go Pentru un elicopter robot, acestea includ controlul elicelor principale și secundare Auto-învățare cu maximizarea întăririi | Orez Echipa de cercetători de la Stanford, Andrew Ng ( - ) a antrenat un elicopter robot să zboare inversat folosind auto-învățare care maximizează întărirea Această lucrare a necesitat construirea unui simulator sofisticat, precis din punct de vedere fizic Se presupune că acțiunile agentului au un impact asupra mediului În cazul AlphaGo, această influență este deterministă (decizia lui AlphaGo de a plasa un cip are ca rezultat plasarea cipului pe placă) În cazul unui elicopter, efectul este probabilistic (schimbarea poziției elicopterului poate depinde de condițiile de vânt care nu pot fi modelate eficient) Ultima parte a modelului este conceptul de recompensă Spre deosebire de învățarea supravegheată, unde există etichete explicite pe care algoritmul învață, sau de învățare nesupravegheată, unde sarcina este de a învăța structura de date subiacentă, autoînvățarea care maximizează întărirea funcționează într-un cadru de recompense parțiale, rare În Go, recompensele sunt obținute la sfârșitul jocului prin câștigarea sau pierderea jocului, în timp ce în zborul cu elicopterul, recompensele pot fi prezentate pentru zboruri reușite sau finalizarea manevrelor acrobatice Dificultate în proiectarea unei funcții de recompensă Una dintre cele mai mari provocări în auto-învățare cu maximizarea întăririi este proiectarea recompenselor care încurajează agenții să învețe comportamentul dorit Chiar și pentru jocuri simple câștig/pierde, cum ar fi go sau tic-tac-toe, această sarcină poate fi surprinzător de dificilă Cum ar trebui penalizate pierderile și cum ar trebui să fie recompensate câștigurile? Nu există încă răspunsuri bune | Capitolul Pentru comportamente mai complexe, această sarcină poate fi extrem de dificilă O serie de studii au arătat că recompensele simple pot duce la un comportament neașteptat și chiar potențial periculos al agenților Aceste sisteme alimentează preocupările cu privire la viitorii agenți cu o mare autonomie că, dacă sunt antrenați să optimizeze funcțiile de recompensă proaste, vor face ravagii atunci când vor fi eliberați în lumea reală În general, auto-învățarea care maximizează întărirea este mai puțin matură decât metodele de învățare supravegheată și avertizăm că deciziile de implementare a auto-învățarii cu maximizare a întăririi în sistemele de producție ar trebui luate cu mare grijă Având în vedere incertitudinea cu privire la comportamentul învățat, orice sistem de învățare care maximizează consolidarea trebuie testat riguros Algoritmi pentru auto-învățare cu maximizarea întăririi Acum că v-am prezentat structurile matematice cheie din spatele întăririi care maximizează auto-învățarea, să ne uităm la proiectarea algoritmilor care învață comportamente inteligente pentru agenții de învățare La un nivel înalt, algoritmii de învățare cu maximizare a întăririi pot fi împărțiți în două grupe: algoritmi bazați pe model și algoritmi fără model Principala diferență dintre cele două este dacă algoritmul încearcă să învețe un model intern despre cum funcționează mediul său sau nu Pentru medii mai simple, cum ar fi tic-tac-toe, dinamica modelului este banală Pentru alte medii, cum ar fi zborul cu elicopterul sau chiar jocurile ATARI, mediul de bază pare a fi extrem de complex Ar putea fi mai pragmatic să renunțăm la construcția unui model de mediu explicit în favoarea unui model implicit care sfătuiește agentul cum să acționeze Simulări și auto-învățare cu maximizarea întăririi Orice algoritm de învățare cu maximizare a întăririi necesită îmbunătățirea iterativă a performanței agentului curent prin evaluarea comportamentului curent al agentului și modificarea acestuia pentru a îmbunătăți recompensele primite Aceste actualizări ale structurii agentului sunt adesea asociate cu un fel de actualizare de coborâre a gradientului, așa cum vom vedea în secțiunile ulterioare Cu toate acestea, după cum știți din capitolele anterioare, coborârea gradientului este un algoritm de antrenament lent! Poate fi nevoie de milioane sau chiar miliarde de pași de coborâre în gradient pentru a antrena un model eficient Acest lucru pune o problemă dacă mediul de auto-învățare este în lumea reală; cum interacționează un agent de milioane de ori cu lumea reală? În majoritatea cazurilor, acest lucru nu este posibil Drept urmare, suprim Auto-învățare cu maximizarea întăririi | O mare parte din sistemul de învățare sofisticat de maximizare a consolidării depinde în mod critic de simulatoare care permit interacțiunea cu o versiune computațională simulată a mediului Pentru mediul de zbor cu elicopterul, una dintre cele mai dificile sarcini cu care s-au confruntat cercetătorii a fost crearea unui simulator precis de fizică a elicopterului, care să permită pregătirea computațională a strategiilor eficiente de zbor Q-learning În cadrul matematic al proceselor de decizie Markov, agenții efectuează acțiuni în mediu și primesc recompense care sunt (probabil) asociate cu acțiunile agenților Funcția Q prezice recompensa așteptată pentru efectuarea unei anumite acțiuni într-o anumită stare a mediului Acest concept pare foarte simplu, dar prinderea vine atunci când recompensa așteptată include recompense reduse din acțiunile viitoare Reducerea recompenselor Conceptul de remunerație redusă este larg răspândit și adesea introdus în contextul finanțelor Să presupunem că un prieten spune că vă va plăti USD săptămâna viitoare Acești USD în viitor valorează mai puțin pentru tine decât cei USD din buzunar acum (De exemplu, ce se întâmplă dacă plata nu are loc niciodată?) Prin urmare, în sens matematic, este o practică obișnuită să se introducă un factor de reducere y (de obicei între și ) care reduce "valoarea prezentă" a plăților viitoare Să presupunem că prietenul tău este oarecum nesigur Puteți decide să setați y = , și să evaluați promisiunea prietenului dvs ca y = USD astăzi pentru a ține seama de incertitudinea recompenselor Cu toate acestea, aceste recompense viitoare depind de acțiunile întreprinse de agent în viitor Ca urmare, funcția Q trebuie formulată recursiv în termenii ei înșiși, deoarece recompensele așteptate pentru o stare depind de recompensele pentru o altă stare Această definiție recursivă face ca memorarea funcției Q să fie confuză O astfel de dependență recursivă poate fi formulată explicit pentru medii simple cu spații de stări discrete și rezolvată folosind metode de programare dinamică În cazul mediilor mai versatile, metodele -learning nu au fost deosebit de utile până de curând DeepMind a introdus recent deep g-networks (deep -networks, DQN) care au fost folosite pentru a dezlega jocurile ATARI, așa cum am menționat mai devreme Ideea originală cheie din spatele DQN este din nou teorema de aproximare universală; întrucât funcția Q poate fi arbitrar complexă, trebuie să o modelăm cu o potrivire universală | Capitolul un simulator precum deep web Deși utilizarea rețelelor neuronale pentru modelarea Q a fost făcută înainte, DeepMind a introdus și conceptul de replicare a experienței pentru aceste rețele, ceea ce le-a permis să antreneze eficient modele de rețea DQN la scară Reluarea experienței permite ca rezultatele observate ale jocului și tranzițiile de stare de la jocurile anterioare să fie stocate și reselectate în timpul antrenamentului (pe lângă antrenamentul pentru jocuri noi), asigurând astfel că lecțiile din trecut nu sunt uitate de rețea t Uitare catastrofală і Rețelele neuronale uită rapid trecutul De fapt, acest fenomen, Y>/ ***\, care se numește uitare catastrofală, poate apărea foarte repede; câteva actualizări în lot pot fi suficiente pentru a face rețeaua să uite comportamentul complex pe care îl cunoștea anterior Și fără metode precum replicarea, care să asigure că rețeaua se antrenează întotdeauna pe episoade din meciurile trecute, ar fi imposibil să înveți un comportament complex Proiectarea unui algoritm de antrenament pentru rețelele profunde care nu suferă de uitare catastrofală este încă o problemă majoră deschisă astăzi În mod remarcabil, oamenii nu suferă de amnezie catastrofală; chiar dacă nu ai mers pe bicicletă de ani de zile, sunt șanse să-ți mai amintești cum se face Construirea unei rețele neuronale cu robustețe similară ar putea implica adăugarea de memorie externă pe termen lung, similar cu o mașină Neural Turing Din păcate, până acum niciuna dintre încercările de a proiecta arhitecturi durabile nu a funcționat bine Memorarea strategiei În secțiunea anterioară, ați fost introdus în ( -learning), care încearcă să obțineți recompense așteptate pentru realizarea anumitor acțiuni în anumite stări ale mediului Învățarea strategiei este un cadru matematic alternativ pentru comportamentul unui agent de învățare Introduce o funcție de strategie n care atribuie o probabilitate fiecărei acțiuni pe care agentul o poate executa în această stare Rețineți că strategia este suficientă pentru a determina comportamentul agentului Având în vedere o politică, un agent poate acționa pur și simplu prin obținerea unui eșantion de acțiune adecvată pentru starea actuală a mediului Strategiile de învățare sunt convenabile prin faptul că strategiile pot fi învățate direct printr-un algoritm numit gradient strategic Acest algoritm folosește câteva trucuri matematice ingenioase pentru a calcula gradienții strategici direct utilizând backpropagation pentru rețelele profunde Conceptul cheie este lansarea situației de joc: lăsați agentul să acționeze în mediu în conformitate cu strategia sa actuală și să marcheze toate recompensele primite; apoi se distribuie invers Auto-învățare cu maximizarea întăririi | direcție pentru a crește probabilitatea acelor acțiuni care au dus la recompense mai profitabile Această descriere este exactă la un nivel înalt, dar vom vedea detalii mai detaliate despre implementare mai târziu Strategia este adesea asociată cu o funcție de cost V Această funcție returnează recompensa redusă așteptată pentru executarea strategiei i, pornind de la starea curentă a mediului Funcțiile V și Q sunt strâns legate, deoarece ambele oferă estimări ale recompenselor viitoare pornind de la starea curentă, dar V nu specifică acțiunea care trebuie efectuată și, dimpotrivă, presupune că modelele de acțiune sunt selectate din sine O altă funcție definită universal este funcția de avantaj A Ea determină diferența dintre recompensa așteptată pentru efectuarea unei anumite acțiuni a într-o anumită stare a mediului s și recompensa pentru urmarea strategiei de bază i Matematic, A este definit în termeni de Q și V\ A(s, a) = Q(s, a)-V(s) Acest avantaj este util în algoritmii de învățare a strategiei, deoarece permite algoritmului să cuantifice cât de mai bună este o anumită acțiune decât recomandarea strategiei curente Gradient strategic dincolo de auto-învățare cu maximizarea armăturii Deși am introdus gradientul strategic ca algoritm de învățare cu maximizare a întăririi, acesta poate fi considerat și ca un instrument de învățare a rețelelor profunde cu submodule nediferențiabile Ce înseamnă asta în jargonul matematic? Să presupunem că avem o rețea care apelează un program extern în cadrul rețelei în sine Acest program extern este o cutie neagră; ar putea fi un apel de rețea sau un apel de rutină COBOL din anii Cum poate învăța restul rețelei adânci când această unitate nu are un gradient? Se pare că gradientul strategic poate fi redirecționat pentru a evalua gradientul "eficient" pentru sistem O abordare intuitivă simplă este aceea că se pot efectua mai multe "desfășurări" ale situației, care sunt folosite pentru a calcula gradienții Este de așteptat ca în următorii câțiva ani să vedem cercetări care extind această idee pentru a crea rețele mari cu module nediferențiale A se vedea https://ru wikipedia org/wiki/ HCKOHTHpoBaHHafl CTOHMOCTb - Aprox pe | Capitolul Antrenament asincron Un dezavantaj al metodelor de gradient strategic prezentate în secțiunea anterioară este că efectuarea operațiilor de derulare necesită calcularea unei estimări a comportamentului agentului într-un mediu (probabil simulat) Majoritatea simulatoarelor sunt componente de program complexe care nu pot fi rulate pe un GPU Ca urmare, trecerea unui pas de auto-învățare necesită calcule lungi, limitate de capacitățile CPU Și acest lucru poate duce la un antrenament nerezonabil de lent Metodele de auto-învățare cu maximizare a consolidării asincrone încearcă să accelereze acest proces prin utilizarea mai multor fire de execuție asincrone a CPU pentru a efectua derularea independentă a situațiilor de joc Aceste fire de lucru implementează jocul, calculează actualizările gradientului de strategie la nivel local și apoi se sincronizează periodic cu setul de parametri globali Din punct de vedere empiric, antrenamentul asincron pare să accelereze semnificativ auto-învățarea care maximizează întărirea și să permită învățarea unor strategii destul de complexe pe laptopuri (Fără GPU-uri! Marea majoritate a puterii de calcul este utilizată pentru derulare, așa că pașii de actualizare a gradientului nu sunt adesea aspectul limitativ al auto-învățarii cu maximizarea întăririi ) Cel mai popular algoritm de auto-învățare cu maximizarea întăririi asincrone în prezent este avantajul asincron actor-critic, benzinărie) CPU sau GPU? GPU-urile sunt esențiale pentru majoritatea aplicațiilor mari de deep learning, dar în prezent auto-învățarea cu maximizarea întăririi este o excepție de la această regulă generală Dependența algoritmilor de învățare de maximizare a întăririi pe mai multe derulări ale situației de joc pare în prezent să schimbe implementările de autoînvățare cu maximizarea întăririi către sisteme cu procesoare multi-core Este probabil ca în anumite aplicații, simulatoarele individuale să poată fi portate pentru a rula mai rapid pe GPU, cu toate acestea, în viitorul apropiat, simularea bazată pe CPU este probabil să continue să domine Limitările auto-învățarii cu maximizarea întăririi Cadrul matematic al proceselor de decizie Markov este extrem de versatil De exemplu, oamenii de știință comportamental folosesc în mod regulat procesele de decizie Markov pentru a înțelege și modela luarea deciziilor umane Universalitatea matematică a acestui cadru i-a determinat pe oamenii de știință să susțină că rezolvarea problemei auto-învățarii cu maximizarea întăririi este posibilă Auto-învățare cu maximizarea întăririi | poate stimula crearea de inteligențe generale artificiale (AGI) Succesul copleșitor al programului AlphaGo împotriva lui Lee Sedol a întărit această convingere, astfel încât grupuri de cercetare precum OpenAI și DeepMind, dedicate creării AGI, își concentrează marea majoritate a eforturilor pe dezvoltarea de noi metode de auto-învățare cu maximizare a consolidării Cu toate acestea, există slăbiciuni serioase în auto-învățare cu maximizarea întăririi așa cum există astăzi Benchmarkingul atent bazat pe benchmark-uri a arătat că metodele de auto-învățare care maximizează întărirea sunt foarte susceptibile la selecția hiperparametrilor (chiar și după standardele de auto-învățare profundă, care este deja mult mai bine lustruită decât alte metode, cum ar fi pădurile aleatorii) După cum am menționat deja, proiectarea funcțiilor de recompensă este foarte imatur - oamenii sunt capabili să își proiecteze în interior propriile funcții de recompensă sau să învețe efectiv să copieze funcțiile de recompensă din observații Deși au fost propuși algoritmi de "auto-învățare inversă cu maximizarea întăririi" care învață direct funcțiile de recompensă, acești algoritmi au multe limitări în practică Dincolo de limitările fundamentale, există multe mai multe probleme practice de scalare Oamenii sunt capabili să joace jocuri care combină strategia de nivel înalt cu mii de mișcări "micro" De exemplu, jocul de strategie StarCraft (Figura ) profesional necesită o strategie sofisticată combinată cu un control atent al sutelor de unități (unități de luptă) "ТLoѵe to Beacb"^ ~Cdlect Minerals and Gas M / ' - • - * si X ! ' * * i V / kaxz -Colectați minerale* J ■ • -Marioi cu detail cioburi tf • *• e* f ■ U "~~ I * *• - - -, ? • • • I tf • {■ Acest exemplu definește o superclasă comună pentru toate astfel de straturi classLayer(obiect): def init (seif, in layers=Niciunul, **kwargs): dacă "nume" în kwargs: self name = kwargs["nume"] altceva: self name = Nici unul dacă in layers este Niciunul: in layers = list() dacă nu esteinstanță(în straturi, secvență): in layers = [in straturi] seif in layers = in straturi seif variable scope = "" seif tb input = Nici unul def create tensor(seif, in layers=Niciunul, **kwargs): raise NotlmplementedError("Subclasele trebuie să se implementeze singure") def get input tensors(seif, in layers): """Obțineți tensorii de intrare pentru acest strat Auto-învățare cu maximizarea întăririi | Opțiuni in layers: lista de straturi sau tensori; intrări transmise către create tensor() Daca nici unul, atunci intrările acelui strat vor fi folosite în schimb w n n dacă in layers este Niciunul: in layers = seif in layers dacă nu esteinstanță(în straturi, secvență): in layers = [in straturi] tensori = [] pentru intrare în in layers: tensors append(tf convert to tensor(input)) tensori de întoarcere def convert layer to tensor(valoare, dtype=Niciunul, nume=Niciuna, as ref=Fals): returnează tf convert to tensor(value out tensor, dtype=dtype, nume=nume) tf register tensor conversion function(Layer, convert layer to tensor) Descrierea de mai sus este abstractă, dar ușor de utilizat în practică Exemplul - arată un strat de compresie Squeeze care înglobează funcția tf squeezeo cu un strat Layer (veți observa mai târziu confortul acestei clase) Rețineți că squeeze este o subclasă a clasei Layer ^ Exemplul Stratul Squeeze își comprimă intrarea | clasa Squeeze (Strat): def init (seif, in layers=Niciuna, squeeze dims=Niciuna, **kwargs): seif squeeze dims = squeeze dims super(Squeeze, seif) init (in straturi, **kwargs) def create tensor(seif, in layers=Niciunul, **kwargs): inputs = seif get input tensors(in layers) parent tensor = inputs[ ] out tensor = tf squeeze(parent tensor, squeeze dims=self squeeze dims) seif out tensor return out out tensor Stratul de intrare împachetează substituenți pentru comoditate (Exemplul ) Rețineți că metoda Layer create tensor() trebuie apelată pentru fiecare strat pe care îl folosim pentru a construi graficul de calcul TensorFlow I Gpawa Exemplul Stratul de intrare adaugă substituenți la graficul de calcul classInput(Layer): def init (seif, shape, dtype=tf float , **kwargs): self shape = tuplu(forma) seif dtype = dtype super(Intrare, seif) init (**kwargs) def create tensor(seif, in layers=None, **kwargs): dacă in layers este None: in layers = seif in layers out tensor = tf placeholder(dtype=self dtype, shape=self, shape) seif out tensor = out tensor return out tensor Modulele tf keras SI tf estimator Cadrul de calcul TensorFlow a integrat acum populara interfață orientată pe obiecte Keras în biblioteca centrală TensorFlow Keras include o definiție a clasei Layer care se potrivește îndeaproape cu obiectele Layer despre care tocmai ați învățat în această secțiune De fapt, aici obiectele Layer sunt o versiune adaptată a bibliotecii DeepChem La rândul lor, obiectele DeepChem au fost preluate dintr-o versiune anterioară a Keras Este de remarcat faptul că modulul tf keras nu a devenit încă o interfață standard la nivel înalt pentru biblioteca TensorFlow modulul tf estimatorul oferă o interfață alternativă (deși mai puțin bogată) la nivel înalt la codul brut TensorFlow Indiferent de interfața care ajunge să devină standard, credem că înțelegerea principiilor de proiectare pentru a vă crea propria interfață este instructivă și plină de satisfacții Poate fi necesar să creați un nou sistem pentru organizația dvs care necesită un design alternativ, astfel încât o înțelegere solidă a principiilor de proiectare vă va fi de folos Definiția graficului stratului În secțiunea anterioară, am menționat pe scurt că arhitectura profundă poate fi reprezentată ca un grafic direcționat al obiectelor Layer În această secțiune, vom aplica această abordare intuitivă obiectului TensorGraph Aceste obiecte sunt responsabile pentru construirea graficului de calcul de bază TensorFlow Obiectul TensorGraph este responsabil pentru menținerea internă a obiectelor tf Graph, tf Session și lista de straturi (seif layers) (Exemplul ) Un grafic direcționat este reprezentat implicit de o listă de straturi de intrare în straturi aparținând fiecărui obiect Strat Obiectul TensorGraph conține, de asemenea, funcții de serviciu pentru a salva această instanță tf Graph pe disc și, prin urmare, își atribuie Auto-învățare cu maximizarea întăririi | un director (folosind funcția tempfiie mkdtempo, dacă nu se specifică altfel) pentru a stoca punctele de întrerupere a greutății asociate cu graficul TensorFlow de bază Exemplul Graficul tensor conține un grafic strat; Obiecte TensorGraph poate fi gândit ca un obiect "model" care conține arhitectura profundă pe care doriți să o antrenați clasa TensorGraph(obiect): def init (seif, batch size= , random seed=Niciunul, graph=Niciunul, learning rate=O , model dir=Niciunul, **kwargs): II II II Opțiuni batch size: întreg; dimensiunea lotului implicită pentru instruire și evaluare grafic: zeci sau debit Grafic Graficul în care sunt create obiectele Tensorflow Dacă nu există, atunci este creat un nou grafic learning rate: real sau LearningRateSchedule; rata de învățare folosită pentru optimizare, argumente denumite kwargs și și și # Controlul straturilor self layers = dict() seif features = list() self labels = listă() self outputs = list() seif task weights = list() seif loss = Nici unul self built = False seif optimizer = Nici unul seif learning rate = rata de învățare # Un loc separat pentru a stoca obiecte tensor care # nu sunt serializate # Vezi TensorGraph get tf() pentru detalii # construcție leneșă seif tensor objects = { Grafic: grafic, #"train op": niciunul, } | Capitolul seif global step = seif batch size = dimensiunea lot seif random seed = random seed dacă model dir nu este None: dacă nu os path exists(model dir): os makedirs(model dir) altceva: model dir = tempfile mkdtemp() seif model dir is temp = Adevărat seif model dir = model dir seif save file = "%s/%s" % (seif model dir, "model") seif model class = Nici unul Metoda privată add iayer() face treburile casnice pentru adăugarea unui nou obiect Layer la TensorGraph (de exemplu, ) I Exemplul Metoda add layer() adaugă un nou obiect Layer def add layer(seif, layer): dacă layer name este Niciunul: layer name = "%s %s" % (layer class name , len(seif layers) + ) if layer name în seif layers: întoarcere dacă esteinstanță (strat, intrare): seif features append(layer) seif layers[layer name] = strat pentru in layer inlayer in layers: seif add layer(in layer) Straturile din TensorGraph trebuie să formeze un grafic aciclic direcționat (un astfel de grafic nu poate avea cicluri) Ca rezultat, putem sorta aceste straturi topologic Într-un sens intuitiv, sortarea topologică "ordonează" STRATURILE în Grafic astfel încât straturile INCOMING STRATURILE FIECĂRUI STRAT să îl precedă în lista ordonată Această sortare topologică este necesară pentru a ne asigura că toate straturile de intrare ale unui anumit strat sunt adăugate graficului înainte de acest strat (Exemplul ) F Exemplul Metoda topsortO sortează straturi în TensorGraph I def topsort(seif): def add layers to list(layer, sorted layers): dacă stratul în straturi sortate: întoarcere Auto-învățare cu maximizarea întăririi | pentru in layer inlayer in layers: add layers to list(in layer, sorted layers) sorted layers append(layer) straturi sortate = [] pentru în seif features + self labels + seif task weights + iesiri seif: add layers to list( , sorted layers) add layers to list(seif loss, sorted layers) return sortd layers Metoda buiido își asumă responsabilitatea pentru popularea instanței tf Graph apelând metoda iayer create tensor() pentru fiecare strat în ordine topologică (Exemplul - ) Exemplul Metoda buiid populează graficul TensorFlow de bază | def buyid(seif): dacă auto-construit: întoarcere cu seif, get tf("Graph"),as default(): seif training placeholder = tf placeholder(dtype=tf float , forma=()) dacă seif,random seed nu este None: tf set random seed(seif random seed) pentru stratul în seif topsort(): cu tf name scope(layer name): layer create tensor(training=self training placeholder) self session = tf Session() self built=Adevărat Metoda set ioss() adaugă pierderi de antrenament la grafic Metoda add outputo indică faptul că stratul în cauză poate fi extras din grafic Metoda set optimizer() setează optimizatorul utilizat pentru antrenament (Exemplu ) i Exemplul Metode care adaugă pierderile necesare graficului de calcul: ieșiri și optimizatori def set loss(seif, layer): seif, add layer(layer) seif pierdere = strat def add output(seif, layer): seif add layer(layer) seif outputs append(layer) | Capitolul def set optimizer(seif, optimizator): """Atribuiți un optimizator care să fie utilizat pentru potrivire '""' seif optimizer = optimizator Metoda get layer variabieso este folosită pentru a prelua obiectele tf variabile care pot fi învățate create de strat Metoda get tf privată este utilizată pentru a prelua instanțe tf Graph și optimizatorul care stau la baza obiectului TensorGraph Metoda get global step() ESTE o metodă de ajutor PENTRU Preluarea pasului curent în procesul de antrenament (începând de la la construcție) Vezi exemplul Exemplul Alegerea variabilelor de învățare asociate fiecărui strat J def get layer variables(seif, layer): '""'Obțineți lista de variabile care pot fi antrenate în stratul grafic '""' dacă nu auto-construit: seif build() cu seif, get tf("Graph"),as default(): dacă layer variable scope == întoarcere[] returnează tf,get collection( tf GraphKeys TRAINABLE-VARIABLES, scope=layer variable scope) def get global step(seif): return seif, get tf("GlobalStep") def get tf(seif, obj): '""'Selectează primitivele Tensorflow subiacente Opțiuni obj: șir Dacă "Graph", returnează instanța tf Graph Dacă "Optimizer", atunci returnează optimizatorul Dacă "train op", atunci returnează operația de antrenament Dacă "GlobalStep", atunci returnează pasul global Valoare returnată Obiect Tensorflow p p p dacă obj în seif tensor objects și seif tensor objects[obj] nu este None: returnează seif tensor objects[obj] if obj == "Grafic": seif,tensor objects["Graph"] = tf GraphO Auto-învățare cu maximizarea întăririi | elif obj == "Optimizator: seif tensor objects["Optimizer"] = tf train AdamOptimizer( learning rate=self learning rate, betal= , , beta = , , epsilon=le- ) elif obj == "GlobalStep": cu seif get tf("Graph") as default(): seif tensor objects["GlobalStep"] = tf Variable( , antrenabil=fals) returnează seif get tf(obj) În cele din urmă, metoda restore() restaurează obiectul TensorGraph salvat de pe disc (Exemplu ) (După cum veți vedea mai târziu, TensorGraph este salvat automat în timpul antrenamentului ) Exemplul Restaurarea unui model antrenat de pe disc def restaurare(seif): """Reîncărcați valorile tuturor variabilelor din fișier cel mai recent punct de control """ dacă nu auto-construit: seif build() last checkpoint = tf train latest checkpoint(seif model dir) dacă last checkpoint este None: raise ValueError ("Nu a fost găsit niciun punct de control") cu seif get tf("Graph") as default(): economisitor = tf train Saver() saver restore(seif session, last checkpoint) Algoritmul stației de alimentare În această secțiune, veți învăța cum să implementați AZS, algoritmul de învățare a maximizării consolidării asincrone pe care l-ați văzut mai devreme în acest capitol AZS este un algoritm de învățare mult mai complex decât cei pe care i-ați văzut până acum Necesită rularea coborârii gradientului pe mai multe fire, intercalate cu codul de derulare a situației de joc și actualizarea asincronă a greutăților învățate Ca rezultat al acestei complexități adăugate, vom defini algoritmul ACS într-un stil orientat pe obiecte Să începem prin a defini obiectul benzinăriei Clasa dss implementează algoritmul ACS (Exemplul ) Mai multe dansuri suplimentare de tamburin sunt incluse în algoritmul principal pentru a încuraja auto-învățarea, Consultați https /medium com/emergent-future/simpie-reinforcement-iearning-with-tensorflow-part- -asynchronous-actor-critic-agents-a c-c f a e f pentru o descriere detaliată a formalizării algoritmului - Aprox pe I Capitolul în special termenul de entropie și suportul pentru estimarea generalizată a beneficiilor Nu vom acoperi toate aceste detalii, dar pentru a le înțelege mai bine, vă recomandăm să urmați linkurile către literatura de cercetare (enumerate în descrierea clasei din cod) ! Exemplul Definiți o clasă CAS care încapsulează antrenamentul algoritmului i cu maximizarea armăturii asincrone benzinărie de clasă (obiect): p p p Implementează un algoritm pentru critica de strategie asincronă bazată pe avantaj (AZS) Algoritmul este descris în Mnih V et al "Metode asincrone pentru învățare prin consolidare profundă" vezi https://arxiv org/abs/ Această clasă necesită ca strategia să scoată două cantități: un vector care oferă probabilitatea de a efectua fiecare acțiune și o estimare a funcției de cost pentru starea curentă Optimizează ambele ieșiri în același timp folosind o pierdere care este suma a trei termeni Pierderea strategiei; încearcă să maximizeze recompensa redusă pentru fiecare acțiune Pierderea valorii; ea încearcă să se potrivească cu estimarea costurilor sub recompensa efectivă redusă care a fost obținută la fiecare pas Termen de entropie pentru stimularea sondajului Această clasă acceptă numai medii cu spații de acțiune discrete (nu continue) Argumentul "acțiune" transmis mediului este un index întreg al acțiunii de efectuat Această clasă acceptă notarea generalizată a beneficiilor așa cum este descris în Schulman et al "Utilizarea controlului continuu de înaltă dimensiune Estimarea avantajului generalizat" ("Control continuu multidimensional folosind evaluarea generalizată a beneficiilor", vezi https://arxiv org/abs/ ) Aceasta este o metodă de a găsi un compromis între părtinire și variație în estimarea beneficiilor, care uneori poate duce la o îmbunătățire a ratei de convergență Utilizați parametrul advantage lambda pentru a seta compromisul eu" ft și self env = env seif max rollout length = max rollout length seif discount factor = discount factor Auto-învățare cu maximizarea întăririi | seif advantage lambda = avantaj lambda seif value weight = valoare greutate seif entropie greutate = entropy weight seif optimizer = Nici unul (seif graph, seif features, seif rewards, seif actions, seif actionjprob, self value, seif advantages) = seif build graph( Niciunul, "global", model dir) cu seif graph get tf("Graph") as default(): seif session = tf SessionO În centrul clasei azc se află metoda buiid graph() (Exemplul - ), care creează o instanță TensorGraph (în interiorul căreia se află un grafic de calcul TensorFlow) care codifică strategia învățată de model Observați cât de condensată este această definiție în comparație cu celelalte pe care le-ați văzut înainte! Utilizarea orientării obiectelor are multe avantaje i Exemplul Această metodă construiește un grafic de calcul pentru algoritmul ACS • Rețineți că rețeaua strategică aici este definită pe baza abstracției Layer pe care ați văzut-o mai devreme def build graph(seif, tf graph, scope, model dir): """Construiți un TensorGraph care să conțină calcule de strategie și pierderi """ state shape = seif env state shape caracteristici = [] pentru s in state shape: features append(Intrare(forma=[Niciuna] + liste(e), dtype=tf float )) dl = Flatten(in layers=funcții) d = Dens( in layers=[dl], activation fn=tf nn relu, normalizer fn=tf nn normalize, normalizer params={"dim": }, out channels= ) d = Dens( in layers=[d ], activation fn=tf nn relu, normalizer fn=tf nn normalize, normalizerjparams={"dim": }, out channels= ) d = Dens( in layers=[d ], activation fn=tf nn relu, normalizer fn=tf nn normalize, normalizer params={"dim": }, out channe s= ) | Capitolul d = BatchNorm(in layers=[d ]) d = Dens(in layers=[d ], activation fn=Niciunul, out channels= ) value = Dense(in layers=[d ], activation fn=Niciunul, out channels=l) value = Squeeze(squeeze dims=l, in layers=[valoare]) action prob = SoftMax(in layers=[d ]) recompense = Intrare(forma=(Niciuna,)) avantaje = Intrare(forma=(Niciuna,)) acțiuni = Input(shape=(None, seif env n actions)) pierdere = A CLoss( seif value weight, seif entropy weight, in layers=[recompense, actiuni, actionjorob, valoare, avantaje]) graph = TensorGraph( batch size=self max rollout length, graph=tf graph, mode l di r=mode l di r) pentru f în caracteristici: graph add layer(f) graph add output(actionjorob) graph add output(valoare) grafic set loss(pierdere) graph set optimizer(seif optimizer) cu graph get tf("Graph") as default(): cu tf variable scope(scope): grafic buildO grafic de returnare, caracteristici, recompense, acțiuni, action prob, valoare, avantaje Există o mulțime de cod în acest exemplu Să o împărțim în câteva exemple și să discutăm mai detaliat Exemplul - ia codificarea TicTacToeEnvironment ca o matrice și o transmite direct instanțelor de intrare pentru grafic Exemplul Acest fragment din metoda build graph() transmite codificarea TicTacToeEnvironment ca o matrice state shape = seif env state shape caracteristici = [] pentru s in state shape: features append(Intrare(forma=[Niciuna] + liste(e), dtype=tf float )) Exemplul - arată un fragment de cod utilizat pentru a construi intrări pentru recompensele de mediu, beneficiile observabile și acțiunile efectuate Auto-învățare cu maximizarea întăririi | Exemplul Acest fragment din metoda build graph() definește obiectele de intrare pentru recompense, beneficii și acțiuni recompense = Input(shape=(Niciunul,)) avantaje = Input(shape=(Niciunul,)) acțiuni = Input(shape=(Niciuna, seif env n actions)) Rețeaua strategică este responsabilă pentru învățarea strategiei În Exemplul , starea câmpului de joc de intrare este mai întâi netezită într-un vector de caracteristică de intrare simplă O serie de transformări complet conectate (sau dense) sunt aplicate terenului de joc netezit La sfârșit, un strat Softmax este folosit pentru a prezice probabilitățile acțiunilor din d (rețineți că argumentul out canal este setat la , câte una pentru fiecare mișcare posibilă pe tabla tic-tac-toe) Exemplul Acest fragment din metoda build graph() definește rețeaua strategică dl = Flatten(in layers=funcții) d = Dens( in layers=[dl], activation fn=tf nn relu, normalizer fn=tf nn normalize, normalizer params={"dim": }, out channels= ) d = Dens( in layers=[d ], activation fn=tf nn relu, normalizer fn=tf nn normalize, normalizer params={"dim": }, out channels= ) d = Dens( in layers=[d ], activation fn=tf nn relu, normalizer fn=tf nn normalize, normalizer params={"dim": }, out channels= ) d = BatchNorm(in layers=[d ]) d = Dens(in layers=[d ], activation fn=Niciunul, out channels= ) value = Dense(in layers=[d ], activation fn=Niciunul, out channels=l) value = Squeeze(squeeze dims=l, in layers=[valoare]) action prob = SoftMax(in layers=[d ]) | Capitolul Este ingineria caracteristicilor cu adevărat moartă? În această secțiune, transmitem un teren de joc brut lui TensorFlow pentru a antrena strategia Cu toate acestea, este important să rețineți că pentru jocurile mai complexe decât tic-tac-toe, acest lucru poate să nu dea rezultate satisfăcătoare Unul dintre faptele mai puțin cunoscute despre AlphaGo este că, pentru a face AlphaGo mai ușor de auto-învățat, DeepMind efectuează o inginerie complexă a caracteristicilor pentru a extrage poziții Go "interesante" de pe tablă (Acest fapt este ascuns în informațiile care însoțesc lucrarea de cercetare DeepMind ) Faptul rămâne că auto-învățarea care maximizează întărirea (și metodele de învățare profundă în general) necesită adesea o inginerie a caracteristicilor centrate pe om pentru a extrage informații semnificative înainte ca algoritmii de învățare să fie capabili să învețe strategii și modele eficiente Este probabil ca această nevoie de inginerie a caracteristicilor să scadă pe măsură ce puterea de calcul disponibilă prin îmbunătățiri hardware, dar, în viitorul apropiat, planificați să extrageți manual informațiile despre sistemele dvs de care aveți nevoie pentru a îmbunătăți performanța Funcția de pierdere Acum mecanismul orientat pe obiect este în vigoare și totul este pregătit pentru a determina pierderea în rețeaua strategică de benzinării Această funcție de pierdere va fi implementată ca obiect Layer (o abstractizare convenabilă - toate părțile arhitecturii profunde sunt doar straturi) Obiectul A CLoss implementează o pierdere matematică constând din suma a trei termeni: pierdere de putere, ioss vaiu și entropie (Exemplul ) Exemplul Strat care implementează funcția de pierdere pentru benzinării clasa A CLoss(Layer): '""'Acest strat calculează funcția de pierdere pentru benzinării '""' def init (seif, value weight, entropy weight, **kwargs): super(A CLoss, seif) init (**kwargs) seif value weight = greutate valoare seif,greutate entropie = greutate entropie def create tensor(seif, **kwargs): recompensă, acțiune, prob, valoare, avantaj = [ layer out tensor for layer in seif in layers ] prob = prob + np finfo(np float ) eps log prob = tf log(prob) Auto-învățare cu maximizarea întăririi | policy loss = -tf reduce mean( avantaj * tf reduce sum(action * log prob, axis=l)) value loss = tf reduce mean(tf square(reward - value)) entropy = -tf reduce mean(tf reduce sum(prob * log prob, axis=l)) seif out tensor = policy loss + seif value weight * value loss \ - seif entropie greutate * entropie return seif out tensor Există multe părți ale definiției de mai sus, așa că haideți să scoatem fragmentele de cod și să le examinăm Stratul A CLoss ia ca intrare straturile de recompensă, acțiune, prob, valoare, avantaj Pentru stabilitate matematică, convertim probabilitățile în probabilități log (aceasta este mult mai stabilă numeric) Vezi exemplul Exemplul Acest fragment de cod din stratul A coss ia Recompensă, Acțiune, Probabilitate, Cost, Beneficiu ca straturi de intrare | și calculează log probabilitatea j recompensa, actiune, problema, valoare, avantaj = [ layer out tensor pentru stratul în seif in layers prob = prob + np finfo(np float ) eps log prob = tf log(prob) Funcția de pierdere pentru o strategie calculează suma tuturor beneficiilor observate, ponderată cu probabilitatea log a acțiunii întreprinse (Reamintim că avantajul este diferența dintre recompensa pentru efectuarea unei anumite acțiuni și recompensa așteptată a unei strategii brute pentru o anumită stare ) Ideea aici este că pierderea mai puternică semnalează care acțiuni au fost profitabile și care nu (Exemplul ) Exemplul Această bucată de cod din stratul A coss definește pierderea strategică | policy loss = -tf reduce mean( avantaj * tf reduce sum(acțiune ★ log prob, axa=l)) Pierderea de valoare calculează diferența dintre recompensa noastră estimată V (recompensa) și valoarea reală observată V (valoare) Observați utilizarea pierderii i aici (Exemplu ) Exemplul Acest fragment de cod din stratul asciusz definește pierderea de cost | value ioss = tf reduce mean(tf square(recompensa - valoare)) Termenul de entropie este o adăugare care încurajează strategia de a explora în continuare prin adăugarea unui pic de zgomot Acest membru este de fapt forma | Capitolul regularizare pentru rețelele de benzinării Pierderea finală calculată de funcția A CLoss este o combinație liniară a pierderilor acestor componente (Exemplul ) Exemplul Acest fragment de cod din stratul xsosz definește termenul de entropie adăugat la pierdere entropie = -tf reduce mean(tf reduce sum(prob * logjprob, axa=l)) Definiția fluxurilor de lucru Până acum, ați văzut cum este construită rețeaua strategică, dar nu ați văzut încă cum este implementată procedura de instruire asincronă Din punct de vedere conceptual, antrenamentul asincron constă în procese separate ale lucrătorilor care efectuează coborâre în gradient pe derulări simulate local ale situației de joc și returnează periodic cunoștințele dobândite la setul global de ponderi Continuând cu designul nostru orientat pe obiecte, să introducem clasa Worker Fiecare instanță a clasei de lucru conține o copie a modelului, care este antrenat asincron pe un fir separat (Exemplu - ) Rețineți că a c buiid grapho este folosit pentru a construi o copie locală a graficului de calcul TensorFlow pentru fluxul în cauză Acordați o atenție deosebită aici la locai vars și giobai vars Trebuie să ne asigurăm că sunt antrenate doar acele variabile care sunt asociate cu copia strategiei acestui flux de lucru, și nu cu copia globală a variabilelor (care este folosită pentru a face schimb de informații între firele de lucru) În consecință, gradienții folosesc tf gradients() care ia gradienți de pierdere numai în raport cu variabilele locale Exemplul Clasa ngker implementează calculul efectuat de fiecare fir Lucrător de clasă (obiect): """Se creează un obiect Worker pentru fiecare fir de antrenament """ def init (seif, a c, index): sine a c = a c seif index = index self scope = "lucrător%d" % index self env = seif deepcopy(a c env) seif env reset() (seif graph, seif features, seif rewards, seif actions, seif action prob, self value, seif advantages) = a c build graph( a c graph get tf ("Grafic"), self scope, None) Auto-învățare cu maximizarea întăririi | cu a c graph get tf("Graph") as default(): local vars = tf get collection( tf Taste grafice TRAINABLE VARIABLES, seif scope) global vars = tf get collection( tf GraphKeys TRAINABLE VARIABLES, "global") gradienți = tf gradients(seif graph loss out tensor, local vars) grads and vars = list(zip(gradienți, global vars)) seif train op = a c graph get tf( "Optimizator") apply gradients( grads and vars) seif update local variables = tf group( * [tf assign(vl, v ) for vl, v in zip(local vars, global vars)]) seif global step = seif graph get global step() Desfășurarea situației de joc în procesele de lucru Fiecare proces de lucru este responsabil pentru simularea desfășurării situației de joc la nivel local Metoda create rollout() folosește session run pentru a prelua probabilitățile de acțiune dintr-un grafic TensorFlow (Exemplul - ) Apoi obține un eșantion de acțiune din acea strategie folosind funcția NumPy np random choiceO, ponderată cu probabilitatea fiecărei clase Recompensa pentru acțiunea efectuată este calculată DIN TicTacToeEnvironment, Apelând seif epv pas(actiune) Exemplul Metoda create roilout simulează o lansare locală a unei situații de joc def create rollout(seif): """Generează situația jocului în curs """ n actions = seif env n actions session = seif a c session state = [] acțiuni = [] recompense = [] valori = [] # Generarea expansiunii pentru i în interval (seif a c max rollout length): dacă seif env terminated: pauză stat = seif env state | Capitolul state anexează (stat) feed dict = seif,create feed dict(stare) rezultate = session run( [seif,action prob out tensor, seif value out tensor]t feed dict=feed dict) probabilități, valoare = rezultate[: ] acțiune = np random choice(np arange(n actions), p=probabilities[ ]) actions append(acțiune) values append(float(valoare)) recompense append(seif env step(acțiune)) # Calculați scorul recompensei pentru restul episodului dacă nu seif env terminated: feed dict = seif,create feed dict(seif env state) final value = seif,a c discount factor * float( session run(seif value out tensor, feed dict)) altceva: valoarea finală= , values append(final value) dacă seif env terminated: seif env reset() returnează stări, acțiuni, np array (recompense), np array (valori) Metoda process roiioutsO realizează preprocesarea necesară pentru a calcula recompense, costuri, activități și beneficii reduse (Exemplul - ) Exemplul Metoda processjrollouts() calculează recompensele, costurile, acțiunile și beneficiile și apoi face un pas de coborâre în gradient în ceea ce privește pierderea def process rollout(seif, state, acțiuni, recompense, valori, step count): """Instruiți rețeaua pe baza implementării """ # Calculați recompense și beneficii reduse dacă len (stări) == : # Într-un mediu cu mai multe fire, crearea unei implementări uneori eșuează # Nu procesați dacă este corupt prinț("Desfășurarea a eșuat Sar peste") return discounted rewards = recompense discount() discounted rewards[- ] += valori[- ] avantaje = recompense - valori[:-l] + seif,a c discount factor * np array(valori[ :]) Auto-învățare cu maximizarea întăririi | pentru j în interval(len(recompense) - , , - ): recompense reducete[j- ] += seif a c factor reducere * \ recompense reducete[j] avantaje[j- ] += ( seif a c discount factor * seif a c advantage lambda * avantaje[j]) # Convertiți acțiunile în codificare cu o stare activă n actions = seif env n actions matrice acțiuni = [] pentru acțiune în acțiuni: a = np zeros(n actions) a[acțiune] = , actions matrix append(a) # Redistribuiți stările în setul corespunzător de matrice state arrays = [[] for i in range(len(seif features))] pentru stat în state: pentru j în interval(len(stare)): state arrays[j] append(state[j]) # Construiți un dicționar de transfer de date și aplicați gradienți feed dict = {} pentru f, s în zip(seif features, state arrays): feed dict[f out tensor] = s feed dict[seif rewards out tensor] = recompense reducete feed dict[seif actions out tensor] = matrice acțiuni feed dict[seif advantages out tensor] = avantaje feed dict[seif global step] = step count seif a c session run(seif train op, feed dict=feed dict) Metoda Worker runO efectuează un pas de antrenament pentru obiectul worker, bazându-se pe metoda process rollout() pentru a efectua un apel efectiv la metoda seif a c session run() în culise (Exemplul - ) ! Exemplul Metoda de rulare este o activare la nivel înalt a obiectului Worker def run(seif, step count, total steps): cu seif graph get tf("Graph") as default(): în timp ce step count[ ] : fire[ ] j oin(checkpoint interval) checkpoint index += saver save( seif session, seif graph save file, global s tep=checkpoint index) dacă len(file) == : pauză Sarcina pentru cititor Vă recomandăm insistent să încercați să antrenați singur modelul de joc tic-tac-toe! Rețineți că acest exemplu este mai complex decât celelalte exemple din carte și va necesita mai multă putere de procesare Se recomandă utilizarea unui computer cu mai multe nuclee CPU Această cerință tehnică nu este deosebit de oneroasă; un laptop bun ar trebui să fie suficient Încercați să utilizați un instrument precum htop pentru a vă asigura că codul dvs este într-adevăr multi-thread Convinge-te de calitatea modelului pe care il antrenezi! De cele mai multe ori va trebui să depășiți un benchmark aleatoriu, dar această implementare rudimentară nu vă va oferi un model care câștigă întotdeauna Vă recomandăm să analizați postările de auto-învățare despre maximizarea consolidării și să extindeți implementarea de bază pentru a vedea cât de bine puteți face acest lucru rezumat În acest capitol, v-am prezentat conceptele de bază ale autoînvățarii cu maximizarea întăririi V-am prezentat câteva dintre succesele recente ale tehnicilor de auto-învățare care maximizează întărirea în jocurile arcade AT ARI, zborul inversat cu elicopterul și computer Go Apoi v-am povestit despre cadrul matematic al proceselor de decizie Markov Am acoperit-o cu un studiu de caz detaliat, care vă ghidează prin procesul de construire a unui agent de joc tic-tac-toe Acest algoritm folosește o metodă de antrenament AZS sofisticată care utilizează mai multe nuclee CPU pentru a accelera procesul de antrenament În capitolul , veți afla mai multe despre modelele de antrenament cu mai multe GPU-uri | Capitolul CAPITOLUL Antrenarea rețelelor mari profunde Deci, acum știți cum puteți antrena pe deplin modele mici pe un laptop bun Toate aceste modele pot fi rulate cu succes pe hardware echipat cu unitatea de procesare grafică (GPU), cu îmbunătățiri vizibile ale vitezei (cu excepția modelelor de auto-învățare cu maximizare a armatei, din motivele discutate în capitolul anterior) Cu toate acestea, antrenarea modelelor mai mari necesită încă multă muncă În acest capitol, vom discuta diferite tipuri de hardware care pot fi folosite pentru a antrena rețele profunde, inclusiv unități de procesare grafică (GPU), unități de procesare tensor (TPU) și cipuri neuromorfe De asemenea, vom revizui pe scurt principiile de instruire distribuite pentru modele mai mari de învățare profundă Să încheiem acest capitol cu un studiu de caz aprofundat, preluat și adaptat dintr-unul dintre tutorialele TensorFlow, care demonstrează o metodă de antrenare a unei rețele neuronale convoluționale CIFAR- pe un server GPU cu mai multe procesoare Vă încurajăm să încercați să rulați singur acest cod, dar admitem cu ușurință că obținerea accesului la un server cu mai multe procesoare pentru calcularea GPU este mai dificilă decât găsirea unui laptop bun Din fericire, accesul la servere multi-GPU pentru calcularea GPU în cloud devine posibil și pare a fi cea mai bună soluție pentru utilizatorii industriali TensorFlow care încearcă să antreneze modele mari Hardware dedicat pentru rețele profunde După cum ați văzut de-a lungul cărții, antrenarea unei rețele profunde necesită lanțuri de operații tensoare efectuate în mod repetat pe mini-loturi de date Operațiile cu tensori sunt de obicei convertite în operații de multiplicare a matricei prin software, astfel încât viteza de antrenare a rețelelor profunde depinde în mod fundamental de capacitatea de a efectua operații de multiplicare a matricei rapid În timp ce unitățile centrale de procesare (CPU) sunt excelente în implementarea înmulțirilor de matrice, versatilitatea hardware-ului procesorului înseamnă că se va cheltui mult efort pentru operațiunile matematice inutile Inginerii hardware au remarcat acest fapt de mulți ani și există o serie de hardware alternative pentru a face față problemelor profunde retelelor Un astfel de echipament poate fi clasificat pe scară largă în două categorii: numai retragere și antrenament și retragere Hardware-ul numai de inferență nu poate fi folosit pentru a antrena noi rețele profunde, dar poate fi folosit pentru a implementa modele antrenate într-un mediu de producție, potențial crescând performanța cu un ordin de mărime Echipamentele de antrenament și inferență vă permit să antrenați modele în mod nativ Hardware-ul GPU NVIDIA domină în prezent piața hardware de instruire și inferență datorită investițiilor semnificative în software și eforturilor de sensibilizare din partea echipelor de dezvoltare NVIDIA, dar o serie de alți concurenți încep deja să urmeze GPU-urile În această secțiune, vom arunca o privire rapidă asupra unora dintre aceste hardware-uri noi În afară de GPU-uri și procesoare, marea majoritate a acestor forme alternative de hardware nu sunt încă disponibile pe scară largă, așa că o mare parte din această secțiune este orientată spre viitor Antrenament CPU În timp ce antrenamentul CPU nu este în niciun caz ultimul cuvânt în antrenamentul de rețea profundă, adesea funcționează destul de bine pentru modelele mai mici (după cum ați văzut din propria experiență citind această carte) Pentru sarcini de auto-învățare cu maximizare a consolidării, un procesor cu mai multe nuclee poate chiar depăși antrenamentul GPU CPU-urile sunt, de asemenea, foarte populare pentru aplicațiile de rețea profundă din categoria numai de ieșire Majoritatea companiilor au investit masiv în dezvoltarea de servere cloud, construite în principal pe servere Intel Este foarte probabil ca prima generație de rețele profunde implementate peste tot (în afara companiilor de tehnologie) să fie implementată în principal într-un mediu de producție pe astfel de servere Intel Deși implementarea bazată pe CPU nu este suficientă pentru implementarea de înaltă performanță a modelelor de învățare, este adesea suficientă pentru primele nevoi ale clienților Pe fig Figura prezintă un procesor Intel standard Orez CPU de la Intel Unitățile centrale de procesare sunt încă forma dominantă de hardware de computer întâlnită în toate laptopurile, desktopurile, serverele și telefoanele moderne Marea majoritate a software-ului este scris pentru a rula pe CPU Calculele numerice (cum ar fi antrenarea unei rețele neuronale) pot fi efectuate pe CPU, dar pot fi mai lente decât pe hardware dedicat optimizat pentru metode numerice | Capitolul Antrenament GPU GPU-urile (graphics processing unit - graphics processing unit) au fost concepute inițial pentru a efectua calculele cerute de comunitatea grafică Întâmplător, se dovedește că primitivele folosite pentru a defini umbrirea grafică pot fi reutilizate pentru învățare profundă În bazele lor matematice, grafica și învățarea automată se bazează pe înmulțirile matriceale Din punct de vedere empiric, multiplicarea matricei pe GPU-uri oferă accelerări cu un ordin de mărime sau două ordine de mărime mai rapide decât implementările CPU Cum au obținut un astfel de succes GPU-urile? Trucul este că GPU-urile folosesc mii de fire identice Hackerii inteligenți au reușit să descompună multiplicarea matricei în operațiuni paralele care pot oferi accelerații dramatice Pe fig Figura prezintă arhitectura GPU-ului Lfl CL O O Orez Arhitectura GPU NVIDIA GPU-urile au mult mai multe nuclee decât CPU-urile și sunt potrivite pentru a efectua metode algebrice liniare numerice care sunt potrivite pentru calcule grafice și legate de învățarea automată GPU-urile au apărut ca platformă hardware dominantă pentru formarea profundă a rețelei Deși există un număr de furnizori de GPU astăzi, piața de GPU este în prezent dominată de NVIDIA Marea majoritate a puterii GPU-ului acestei companii provine din propria bibliotecă CUDA (compute unified device architecture) Antrenarea rețelelor mari de adâncime | arhitectură hardware-gramatică de calcul paralel) care oferă primitive care facilitează scrierea programelor pe GPU NVIDIA oferă o extensie CUDA numită CUDNN pentru accelerarea rețelelor profunde (vezi Figura ) TensorFlow are suport încorporat pentru extensia CUDNN, așa că puteți utiliza și CUDNN prin TensorFlow pentru a vă accelera rețelele Cât de importante sunt dimensiunile tranzistorilor? De ani de zile, industria semiconductoarelor a urmărit creșterea vitezei cipurilor analizând dimensiunea tranzistoarelor Pe măsură ce tranzistoarele deveneau mai mici, mai multe cipuri puteau fi împachetate într-un cip standard, iar algoritmii puteau rula mai repede La momentul scrierii acestui articol, Intel operează cu tranzistoare de nm și lucrează la o tranziție la nm În ultimii ani, rata de contracție a tranzistorilor a încetinit semnificativ, deoarece disiparea căldurii este o problemă uriașă la această scară GPU-urile NVIDIA au depășit parțial această tendință Ei tind să folosească dimensiuni de tranzistori cu una sau două generații în spatele celor mai bune tranzistoare Intel, iar aceste GPU-uri sunt concentrate pe rezolvarea blocajelor de arhitectură și software, mai degrabă decât pe proiectarea tranzistorului Până acum, strategia NVIDIA a dat dividende, iar compania a atins dominația pe piață pe segmentul cipurilor de învățare automată Nu este încă clar cât de departe pot ajunge optimizările arhitecturale și software Se vor confrunta în curând optimizările GPU-urilor cu aceleași obstacole din Legea lui Moore ca și procesoarele? Sau inovațiile arhitecturale inteligente vor permite ani de accelerare a GPU-ului? Doar timpul se va arăta procesoare tensor O unitate de procesare a tensorului (TPU) este un circuit integrat specific aplicației (ASIC) dezvoltat de Google pentru a crește sarcinile de lucru de auto-învățare profunde oferite de TensorFlow Spre deosebire de GPU, TPU are o configurație redusă și implementează doar minimul absolut "op-die" necesar pentru a efectua operațiunile necesare de multiplicare a matricei Spre deosebire de GPU, TPU se bazează pe un procesor adiacent pentru a face cea mai mare parte a preprocesării pentru acesta Această abordare comprimată permite TPU-ului să atingă viteze mai mari decât GPU-ului la un cost de energie mai mic Terminația pe matriță (ODT) este o tehnologie în care un terminator rezistiv este plasat în interiorul unui cip semiconductor, mai degrabă decât pe o placă de circuit imprimat Consultați https://en wikipedia org/wiki/On-die termination - Aprox pe I Capitolul Prima versiune de TPU permitea doar deducerea modelelor antrenate, dar cea mai recentă versiune (TPU ) permite deja antrenamentul (anumite) rețele profunde Cu toate acestea, Google nu a lansat multe detalii despre TPU și accesul este limitat la angajații Google, cu planuri de a include accesul la TPU prin cloud-ul Google NVIDIA a luat notă de TPU și este probabil ca viitoarele versiuni ale GPU-urilor sale să semene cu TPU-urile, astfel încât utilizatorii din etapele incipiente ale ciclului de producție sunt probabil să beneficieze de inovațiile Google, indiferent cine câștigă în consumatorul care se învață profund pe sine piata: Google sau NVIDIA Pe fig Figura prezintă designul arhitectural al TPU Gbps I bloc matrice • ■ multiplicare; ] ( KB pe ciclu)! ? baterii Activare ■{ Normalizare/reducere I/O necristalin [ ; calcul • Buffer de date | J Management nu la scară Dispecer î cântar ! Orez Arhitectura Google Tensor Processing Unit (TPU) TPU-urile sunt cipuri personalizate concepute de Google pentru a accelera sarcinile de lucru de deep learning TPU este un co-procesor și nu este o piesă hardware de sine stătătoare Ce sunt cipurile ASIC? Atât CPU, cât și GPU sunt cipuri de uz general CPU-urile suportă de obicei seturi de instrucțiuni într-un bloc și sunt proiectate pentru a fi versatile O atenție deosebită este acordată furnizării unei game largi de aplicații GPU-urile sunt mai puțin versatile, dar totuși Antrenarea rețelelor mari de adâncime | vă permit să implementați o gamă largă de algoritmi în limbi precum CUDA Circuitele integrate specifice aplicației (ASIC) încearcă să se îndepărteze de generalitate în favoarea concentrării pe nevoile unei anumite aplicații Din punct de vedere istoric, cipurile ASIC au obținut doar o penetrare limitată pe piață Rolul de tambur al Legii lui Moore a însemnat că CPU-urile de uz general erau doar cu o suflare sau două în spatele ASIC-urilor specializate, și astfel, supraîncărcarea asociată cu designul hardware nu a meritat adesea efortul Această stare de lucruri a început să se schimbe în ultimii ani Încetinirea compresiei tranzistorilor a dus la o creștere a utilizării ASIC-urilor De exemplu, mineritul bitcoin depinde în întregime de cipuri ASIC specializate care implementează operațiuni criptografice specializate Matrice de porți programabile de utilizator Matricele de porți programabile în câmp (FPGA) sunt un subset de ASIC-uri "programabile în câmp" FPGA-urile standard pot fi adesea reconfigurate cu limbaje de descriere hardware, cum ar fi Verilog, pentru a implementa în mod dinamic noi design-uri ASIC FPGA-urile sunt în general mai puțin eficiente decât ASIC-urile dedicate, dar îmbunătățirile pot crește semnificativ viteza de procesare în comparație cu implementările bazate pe CPU Microsoft, în special, a folosit FPGA-uri pentru a implementa inferențe de auto-învățare profunde și susține că a obținut o creștere semnificativă a vitezei de implementare a acestora Cu toate acestea, această abordare nu s-a răspândit încă pe scară largă în afara Microsoft Chipsuri neuromorfe "Neuronii" din rețelele profunde modelează matematic înțelegerea biologiei neuronale în anii Inutil să spun că înțelegerea biologică a comportamentului neuronal a avansat semnificativ de atunci În primul rând, acum se știe că activările neliniare utilizate în rețelele profunde nu sunt modele precise de neliniaritate neuronală "Pulse chains" (trenuri cu vârfuri) - un model mai optim (Fig ), în care neuronii sunt activați sub formă de explozii scurte (vârfuri), dar cel mai adesea cad în fundal Inginerii hardware au depus eforturi considerabile pentru a explora posibilitatea de a crea microcircuite cu lanț de impulsuri care diferă de circuitele existente (CPU, GPU, ASIC) Acești dezvoltatori susțin că modelele actuale de cip suferă de limitări fundamentale de putere; creierul consumă multe ordine de mărime mai puțină energie decât cipurile computerelor, iar modelele inteligente ar trebui să se străduiască să învețe din arhitectura creierului I Capitolul A Orez Neuronii se declanșează adesea în rafale scurte numite circuite de impuls (a) În cipurile neuromorfe, s-a încercat simularea comportamentului circuitelor de impuls în hardware-ul de calcul Neuronii biologici sunt entități complexe ( ), astfel încât astfel de modele sunt încă doar aproximative O serie de proiecte în acest domeniu au condus la construirea de cipuri mari cu lanț de impulsuri care încearcă să dezvolte această teză cheie Proiectul IBM TrueNorth a reușit să creeze procesoare cu lanț de impulsuri cu milioane de "neuroni" și a demonstrat că acest hardware poate realiza recunoașterea de bază a imaginii cu cerințe de putere semnificativ mai mici decât modelele de cip existente Cu toate acestea, în ciuda acestor succese, nu este încă clar cum să traducă arhitecturile moderne profunde în cipuri cu lanț de impulsuri Fără capacitatea de a "compila" modelele TensorFlow pe hardware-ul puls-chain, este puțin probabil ca astfel de proiecte să devină răspândite în viitorul apropiat Instruire distribuită în rețea profundă În secțiunea anterioară, am analizat diferite opțiuni hardware pentru antrenarea rețelelor profunde Cu toate acestea, majoritatea organizațiilor vor avea probabil acces doar la CPU și, eventual, la GPU Din fericire, este posibil să se efectueze antrenament distribuit în rețea profundă, unde mai multe procesoare sau GPU-uri sunt partajate pentru a antrena modele mai rapid și mai eficient Pe fig Figura prezintă două paradigme principale pentru antrenamentul rețelelor profunde cu mai multe procesoare/GPU, și anume antrenament cu paralelism de date și antrenament cu paralelism model Veți afla despre aceste metode mai detaliat în următoarele două secțiuni Antrenarea rețelelor mari de adâncime | Paralelismul datelor Orez Paralelismul datelor și paralelismul modelului sunt cele două moduri principale de instruire distribuită pentru arhitecturi profunde Antrenamentul paralelismului de date împarte seturi mari de date în mai multe noduri de calcul, în timp ce antrenamentul paralelismului de model împarte modelele mari în mai multe noduri Paralelism de model Paralelismul datelor Paralelismul de date este cel mai comun tip de antrenament de rețea profundă multinodă Modelele de paralelism de date distribuie seturi mari de date pe diferite mașini Majoritatea nodurilor sunt operaționale și au acces la bucăți de date partajate utilizate pentru antrenarea rețelei Fiecare nod lucrător are o copie completă a modelului care este antrenat Un nod este alocat ca supervizor, care la intervale regulate colectează ponderile actualizate de la nodurile de lucru și trimite versiunile medii ale ponderilor înapoi la nodurile de lucru Rețineți că ați văzut deja exemplul de paralelism de date din această carte; Implementarea algoritmului AZS prezentat în Capitolul este un exemplu simplu de antrenare a unei rețele profunde cu paralelism de date Ca o notă istorică, predecesorul Google TensorFlow, DistBelief, s-a bazat pe antrenamentul paralelismului de date pe serverele de calcul CPU Acest sistem a reușit să atingă viteze distribuite ale CPU (folosind - de noduri) care au egalat sau depășit vitezele de antrenament GPU Pe fig Figura prezintă metoda de instruire a paralelismului de date implementată în DistBelief Cu toate acestea, succesul unor sisteme precum DistBelief depinde de obicei de disponibilitatea conexiunilor de rețea cu lățime de bandă mare care permit schimbul rapid al parametrilor modelului Multe organizații nu au infrastructura de rețea care să permită antrenament eficient cu mai multe noduri cu paralelism de date pe CPU Cu toate acestea, după cum arată exemplul AZS, este posibil să se efectueze antrenamentul paralelismului de date pe același nod folosind diferite nuclee CPU În cazul serverelor moderne, este posibil să se efectueze și formarea paralelismului de date cu mai multe GPU-uri cu care este echipat un singur server, așa cum vă vom arăta mai târziu I Capitolul Parametric server w' = w - g|Лѵѵ Orez Metoda de coborâre a gradientului stocastic în flux (SGD) menține mai multe replici ale modelului și le antrenează pe diferite subseturi ale setului de date Greutățile învățate din aceste segmente sunt sincronizate periodic cu greutățile globale stocate pe serverul de parametri Paralelism de model Creierul uman este singurul exemplu cunoscut de hardware inteligent universal, așa că s-au făcut în mod natural comparații între complexitatea rețelelor profunde și complexitatea creierului Argumente simple spun că creierul are aproximativ de miliarde de neuroni; construirea de rețele profunde cu atât de mulți "neuroni" ar fi suficientă pentru a obține inteligența universală? Din păcate, astfel de argumente trec cu vederea faptul că neuronii biologici sunt semnificativ mai complexi decât "neuronii matematici" Prin urmare, comparațiile simple sunt de puțin folos Cu toate acestea, creația rețelele profunde mai mari a fost principalul obiectiv al cercetării în ultimii câțiva ani Principala dificultate în antrenarea rețelelor profunde foarte mari este că GPU-urile tind să aibă memorie limitată (de obicei zeci de gigaocteți) Rețelele neuronale cu câteva sute și mai mult de milioane de parametri, chiar dacă sunt programate în cel mai atent mod, nu pot fi antrenate pe un singur GPU din cauza cerințelor de memorie Algoritmii de antrenament paralel-model încearcă să ocolească această limitare prin stocarea rețelelor mari adânci în memoria mai multor GPU-uri Mai multe echipe de dezvoltare au implementat cu succes aceste idei pe matrice GPU, antrenând rețele profunde cu miliarde de parametri Din păcate, aceste modele încă nu au prezentat îmbunătățiri de performanță care să justifice bataia suplimentară Deocamdată, se pare că îmbunătățirea ușurinței experimentale prin utilizarea modelelor mai mici depășește beneficiile paralelismului modelului Antrenarea rețelelor mari de adâncime | Interconexiuni de memorie și hardware Implementarea paralelismului modelului necesită un debit foarte mare de conexiuni între nodurile de calcul, deoarece fiecare actualizare a gradientului, din motive obiective, necesită schimb de date între noduri Rețineți că, în timp ce paralelismul de date necesită interconexiuni eficiente, operațiunile de sincronizare ar trebui să fie efectuate sporadic după mai multe actualizări locale de gradient Mai multe echipe de dezvoltare au folosit interconexiunile InfmiBand (InfmiBand este un standard de rețea de înaltă performanță, latență scăzută) sau interconexiunile NVLINK proprietare NVIDIA pentru a încerca să construiască modele atât de mari Cu toate acestea, rezultatele experimentale de până acum au fost amestecate, iar cerințele hardware pentru astfel de sisteme tind să fie costisitoare Antrenament paralel asupra datelor CifarlO folosind mai multe GPU-uri În această secțiune, vă vom oferi un ghid detaliat pas cu pas pentru a antrena o rețea convoluțională paralelă pe setul de referință CifarlO Setul de date CifarlO constă din imagini de K x Acest set este adesea folosit BSBBMBBB В ВЭВЕ №аі G Avion Auto Pasăre Pisică Cerb Câine Broască Cal Navă Camion Orez Setul de date CifarlO constă din K imagini luate din clase Câteva exemple de imagini din diferite clase sunt afișate aici vvanyavz | Capitolul pentru analiza comparativă a arhitecturilor convoluţionale Pe fig Figura prezintă imagini eșantion din setul de date CifarlO Arhitectura pe care o vom folosi în această secțiune încarcă copii separate ale arhitecturii model pe diferite GPU-uri și sincronizează periodic greutățile învățate între nuclee (Figura ) Orez Arhitectura paralelismului de date pe care o veți instrui în acest capitol Descărcarea și încărcarea datelor Metoda read cifarioo citește și analizează datele brute CifarlO Exemplul - folosește funcția tf FixedLengthRecordReaderO pentru a citi datele brute din fișierele CifarlO Exemplul Această funcție citește și analizează datele din fișierele de date brute CifarlO def read cifarlO(filename queue): """Citește și analizează exemple din fișierele de date CifarlO Recomandare: Dacă doriți concurență de citire pe N-lane, apelați această funcție de N ori Acest lucru vă va oferi N obiecte independente care citesc diferite fișiere și poziții în acele fișiere, permițându-vă să amestecați mai bine exemplele Antrenarea rețelelor mari de adâncime | Argumente: filename queue: O coadă de valori de șir cu nume de fișiere de citit Valori returnate: Un obiect reprezentând o singură instanță, cu următoarele câmpuri: înălțime: numărul de rânduri din rezultat ( ) lățime: numărul de coloane din rezultat ( ) adâncime: numărul de canale de culoare care rezultă din ( ) cheie: tensor de șir scalar care descrie numele fișierului și numărul de înregistrare pentru acest exemplu labei: un tensor întreg (int ) cu o etichetă în intervalul uint image::integer (uint ) tensor în format [înălțime, lățime, adâncime] cu date de imagine și și ii clasa CIFARlORecord(obiect): trece rezultat = CIFARlORecord() # Dimensiunile imaginii în setul de date CifarlO # Consultați http://www cs toronto edu/~kriz/cifar html pentru o descriere # din formatul de intrare label bytes = # pentru CifarlOO rezultat inaltime = rezultat latime = rezultat adâncime = image bytes = rezultat înălțime * rezultat lățime * rezultat adâncime # Fiecare intrare constă dintr-o etichetă urmată de o imagine # cu un număr fix de octeți record bytes = label bytes + image bytes # Citiți intrarea obținând numele fișierelor din filename queue # În format CifarlO, antetul și subsolul lipsesc, deci # lăsați header bytes și footer bytes cu valorile implicite, # egal cu reader = tf FixedLengthRecordReader(record bytes=record bytes) result key, value = reader read(filename queue) # Convertiți din tipul șirului în vector din uint care are # lungime record bytes record bytes = tf decode raw(valoare, tf uint ) # Citiți intrarea obținând numele fișierelor din filename queue # Fără antet sau subsol în format CifarlO, # așa că lăsăm header bytes și footer bytes cu valorile lor # implicit la I Capitolul reader = tf FixedLengthRecordReader(record bytes=record bytes) result key, value = reader read(filename queue) # Convertiți din tipul șirului în vector din uint care are # lungime record bytes record bytes = tf decode raw(valoare, tf uint ) # Primii octeți reprezintă eticheta pe care o transformăm # din uint ->int rezultat labei = tf cast( tf strided slice(record bytes, [ ], [label bytes]), tf int ) # Octeții rămași după etichetă reprezintă imaginea pe care o avem # reforma de la [adâncime * înălțime * lățime] la [adâncime, înălțime, lățime] depth maj sau = tf reshape( tf strided slice(record bytes, [label bytes], [label bytes + image bytes]), [adâncime rezultat, înălțime rezultat, lățime rezultat]) # Convertiți de la [adâncime, înălțime, lățime] la [înălțime, lățime, adâncime] result uint image = tf transpose(adâncime major, [ , , ]) returnează rezultatul Aprofundare în arhitectură Arhitectura acestei rețele este o rețea convoluțională multistrat standard, similară cu arhitectura avansată LeNet pe care ați văzut-o în Capitolul Metoda inference() creează o arhitectură (Exemplul ) Această arhitectură convoluțională corespunde unei arhitecturi relativ standard cu straturi convoluționale intercalate cu straturi de normalizare locale Exemplul Această funcție construiește arhitectura CifarlO referință def (imagini): '""'Construiți modelul CifarlO Argumente: imagini: imagini returnate de la distorted inputs() sau inputs() Valori returnate: logits n n n # Instanțiăm toate variabilele folosind tf get variable() # în loc de tf Variable() pentru a folosi variabile # partajat în toate cursele de antrenament pe mai multe GPU-uri Antrenarea rețelelor mari de adâncime | # Dacă rulați acest model pe un singur GPU, atunci funcția # poate fi simplificat prin înlocuirea tuturor instanțelor # tf get variable() la tf Variable() # #convl cu tf variable scope('convl') ca domeniu de aplicare: kernel = variable with weight decay('greutăți', form=[ , , , ], stddev= e- , wd= , ) conv = tf nn conv d(imagini, kernel, [ , , , ], padding='SAME') biases = variable on cpu('biases', [ ], tf constant initializer( )) pre activation = tf nn bias add(conv, biases) convl = tf nn relu(pre activation, name=scope name) activation summary(convl) # pooll pooll = tf nn max pool(convl, ksize=[l, , , ], pasi=[l, , , ], padding='SAME', name='pooll') # norml norml = tf nn lrn(pooll, , bias= , alpha= / , beta= , name='norml') #conv cu tf variable scope('conv ') ca domeniu de aplicare: kernel = variable with weight decay('greutăți', form=[ , , , ], stddev= e- , wd= , ) conv = tf nn conv d(norml, kernel, [ , , , ], padding='SAME') biases = variable on cpu('biases', [ ], tf constant initializer( )) pre activation = tf nn bias add(conv, biases) conv = tf nn relu(pre activation, name=scop name) activation summary(conv ) # norma norm = tf nn lrn(conv , , bias= , alpha= / , beta= , name='norm ') #piscina pool = tf nn maxjDOol(norm , ksize=[l, , , ], pasi=[l, , , ], padding='SAME', name='pool ') | Gpaev # IosaIZ cu tf variable scope('IOCAIZ') ca domeniu de aplicare: # Mutați totul la adâncime, astfel încât să puteți executa # înmulțire cu o singură matrice reshape = tf reshape(poo! , [FLAGS batch size, - ]) dim = reshape get shape()[ ] value weights = variable with weight decay('weights', shape=[dim, ], stddev= , wd= ) biases = variable on cpu('biases', [ ], tf constant initializer( )) JocaI = tf nn relu(tf matmul(reshape, weights) + biases, nume=scop nume) activation summary(IOCAIZ) #local cu tf variable scope('local ') ca domeniu de aplicare: weights = variable with weight decay('weights', shape=[ , ], stddev= , wd= ) biases = variable on cpu('biases', [ ], tf constant initializer( )) local = tf nn relu(tf matmul(IOCAIZ, weights) + biases, name=scope name) activation summary(local ) # Strat liniar (WX + b) # Nu aplicăm softmax aici pentru că # tf nn sparse softmax cross entropy with logits take # nescalată înregistrează și face softmax intern # pentru eficiență cu tf variable scope('softmax linear') ca domeniu de aplicare: weights = variable with weight decay('weights', [ , CifarlO NUM CLASSES], stddev=l/ , wd= ) biases = variable on cpu('biases', [cifarlO NUM CLASSES], tf constant initializer( )) softmax linear = tf add(tf matmul(local , weights), biases, nume=scop nume) activation summary(softmax linear) returnează softmax linear Fără orientare la obiect? Comparați codul model dat în această arhitectură cu codul strategiei din arhitectura anterioară Observați cum introducerea obiectului Layer simplifică considerabil codul, cu îmbunătățiri aferente lizibilității Această îmbunătățire dramatică a lizibilității este unul dintre motivele pentru care majoritatea Antrenarea rețelelor mari de adâncime | În practică, chikov preferă să folosească suprapunerea orientată pe obiecte deasupra lui TensorFlow Cu toate acestea, folosim codul brut TensorFlow în acest capitol, deoarece construirea unor clase precum TensorGraph cu mai multe GPU-uri ar necesita o suprasarcină semnificativă În general, codul brut TensorFlow oferă cea mai mare flexibilitate, dar orientarea obiectelor oferă confort Alegeți o abstractizare care se potrivește problemei pe care o rezolvați Antrenament pe mai multe GPU-uri Creăm o instanță separată a modelului și arhitecturii pe fiecare GPU Folosim apoi CPU-ul pentru a media greutățile pentru nodurile GPU individuale (Exemplul ) Exemplul Această funcție antrenează CifarlO | deftrain() : """ Antrenează-l pe CifarlO în câțiva pași """ cu tf Graph() as default(), tf device('/cpu: '): # Creați o variabilă pentru a număra numărul de apeluri train() # Este egal cu numărul de pachete procesate * FLAGS num gpus global step = tf get variable( 'global step', [], initializer=tf constant initializer( )r trainable=False) # Calculați planul pentru viteze de memorare num batches per epoch = (cifarlO NUM EXAMPLES PER EPOCH FOR TRAIN / FLAGS batch s i ze) decay steps = int(num batches per epoch * CifarlO NUM EPOCHS PER DECAY) # Stingeți rata de învățare exponențial dată # număr de pași Ir = tf train exponential decay(cifarlO INITIAL LEARNING RATE, pas global, decay steps, cifarlO LEARNING RATE DECAY FACTOR, staircase=True) # Creați un optimizator care efectuează coborâre în gradient opt = tf train GradientDescentOptimizer(Ir) # Obțineți imagini și etichete pentru CifarlO imagini, etichete = cifarlO distorted inputs() batch queue = tf contrib slim prefetch queue prefetch queue( [imagini, etichete], capacitate= * FLAGS num gpus) | Capitolul Codul din Exemplul - efectuează antrenamentul cheie pe mai multe GPU-uri Observați cum sunt scoase din coadă diferite pachete pentru fiecare GPU, DAR schimbarea greutăților cu tf get variable scoreQ reuse variabies permite antrenamentului să funcționeze corect Exemplul Acest fragment implementează instruirea pe mai multe GPU-uri I # Calculați gradienții pentru fiecare bloc de model tower grads = [] cu tf variable scope(tf get variable scope()): pentru i în xrange(FLAGS num gpus): cu tf device('/gpu:%d' % i): cu tf name scope('%s %d' % (cifarlO TOWER NAME, i)) ca domeniu de aplicare: # Scoateți din coadă un pachet pentru GPU image batch, label batch = batch queue dequeue() # Calculați pierderea pentru un bloc al modelului Cifar # Această funcție construiește un model Cifar complet, dar # partajează variabile între toate blocurile pierdere = tower loss(domeniu, lot imagine, lot etichetă) # Reutilizați variabile # pentru blocul următor tf get variable scope() reuse variables() # Salvați rezumatele din ultimul bloc rezumate = tf get collection(tf GraphKeys SUMMARIES, domeniul de aplicare) # Calculați gradienții pentru lotul de date # pe acest bloc Cifar gradienți = opt compute gradients(pierdere) # Urmăriți gradienții în toate blocurile tower grads append(grads) # Trebuie să calculăm media fiecărui gradient # Rețineți că acesta este punctul de sincronizare între toate blocurile, grads = average gradients(tower grads) Sfârșim prin a folosi o operațiune de antrenament comună și înregistrăm puncte de control cu informații rezumative, după cum este necesar, așa cum se arată în Exemplul Antrenarea rețelelor mari de adâncime | Exemplul Această bucată de cod grupează actualizările și diferitele GPU-uri și scrie puncte de control rezumate după cum este necesar # Adăugați un rezumat pentru a urmări rata de învățare summaries append(tf suinmary scalar('rata de învățare' t lr)) # Adăugați histograme pentru gradienți pentru grad, var în grad: dacă gradul nu este Niciunul: rezumate append(tf summary histogram(var op name + '/gradienti', \grad)) # Aplicați degrade pentru a ajusta variabilele comune apply gradient op == opt apply gradients(grads, pas global^pas global) # Adăugați histograme pentru variabilele antrenabile pentru var în tf trainable variables(): summaries append(tf summary histogram(var op name, var)) # Urmăriți mediile mobile ale tuturor variabilelor de antrenament variabile averages = tf train ExponentialMovingAverage( cifarlO MOVING AVERAGE DECAY, global step) variables averages op = variabile averages apply(tf trainable variables()) # Grupați toate actualizările într-o singură operațiune de antrenament train op = tf group(apply gradient op, variables averages op) # Creați un economizor economisitor = tf train Saver(tf global variables()) # Creați o operațiune de rezumat din cele mai recente rezumate provenite din blocurile summary op = tf rezumat îmbinare (rezumate) # Creați o operație de inițializare pe care să o executați mai jos init - tf global variables initializer() # Începeți să executați o operație pe grafic Argument numit # allow soft jplacement trebuie să fie True pentru a crea # blocuri pe GPU, deoarece unele operațiuni nu au o implementare pe GPU sess = tf Session(config=tf ConfigProto( allow soft placement=Adevărat, log device placement=FLAGS log device jplacement)) sess run(init) # Porniți executorul de coadă tf train start queue runners(sess=sess) | Capitolul summary writer = tf summary FileWriter(FLAGS train dir, sess graph) pentru pasul din xrange(FLAGS max steps): start time = time time() t loss value = sess run([train op, loss]) duration = time time() - start time assert not np isnan(loss value), "Model deviat cu pierdere = NaN" dacă pasul % == : num examples per step = FLAGS batch size * FLAGS num gpus examples per sec = num examples per step / duration sec per batch = duration / FLAGS num gpus format str = ('%s: stride %d pierdere = % f (% lf exemple/s; % f ') 's/pachet)') prinț (format str % (datetime now(), step, loss value, examples per sec, sec per batch)) dacă pasul % == : summary str = sess run(summary op) summary writer add summary (summary str, pas) # Salvați periodic punctul de control al modelului dacă pasul % == sau (pas + ) == FLAGS max steps: checkpoint path = os path join(FLAGS train dir, 'model ckpt') saver save(sess, checkpoint path, global step=step) Sarcina pentru cititor Acum ai toate piesele de care ai nevoie pentru a antrena acest model în practică Încercați-l pe un server potrivit cu GPU computing! Puteți folosi instrumente precum nvidia-smi pentru a vă asigura că toate GPU-urile sunt efectiv utilizate rezumat În acest capitol, ați fost introdus în diferitele tipuri de hardware utilizate în mod obișnuit pentru a antrena arhitecturi profunde De asemenea, ați învățat despre paralelismul datelor și modelul paralelismului pentru antrenarea arhitecturii profunde pe mai multe procesoare sau GPU-uri Am încheiat capitolul cu un exemplu practic de implementare de instruire paralelă a datelor care antrenează o rețea convoluțională în TensorFlow În capitolul , vom discuta despre viitorul învățării profunde și despre cum să folosiți eficient și corect abilitățile pe care le-ați învățat în această carte Antrenarea rețelelor mari de adâncime | CAPITOLUL Viitorul învățării profunde În această carte, am acoperit elementele de bază ale auto-învățarii profunde moderne Am discutat despre o gamă largă de algoritmi și am analizat o serie de studii de caz complexe Cititorii care au lucrat cu exemplele din această carte sunt acum bine pregătiți să folosească învățarea profundă la locul de muncă și să citească literatura extinsă de cercetare despre metodele de învățare profundă Merită să subliniem cât de unic este acest set de abilități Învățarea profundă a avut deja un impact uriaș asupra industriei tehnologice, dar învățarea profundă începe să schimbe dramatic starea aproape a tuturor industriilor non-tehnologice și chiar să schimbe echilibrul geopolitic global Înțelegerea dvs despre această tehnologie de epocă vă va deschide multe uși pe care poate nici nu ați încercat să le imaginați În ultimul capitol, vom analiza pe scurt câteva aplicații importante ale învățării profunde în afara industriei software De asemenea, vom folosi acest capitol pentru a vă ajuta să răspundeți la întrebarea cum să utilizați eficient și etic noile cunoștințe Deep Self-Learning este o tehnologie atât de puternică încât este important ca practicienii să se gândească la cum să-și folosească în mod corespunzător abilitățile Au existat deja numeroase abuzuri ale învățării profunde, așa că practicienii ar face bine să se oprească înainte de a construi sisteme complexe de învățare profundă pentru a se întreba dacă sistemele pe care le construiesc sunt etice Vom încerca o scurtă discuție despre cele mai bune practici etice, dar atenționăm că domeniul eticii software este atât de complex încât este puțin probabil ca discuțiile scurte să facă dreptate subiectului În cele din urmă, vom analiza unde are loc învățarea profundă Este auto-învățarea profundă primul pas către crearea de inteligențe artificiale universale, entități computaționale care au întreaga gamă de capacități umane? Vom analiza o gamă largă de opinii ale experților cu privire la această problemă Învățare profundă în afara industriei tehnologiei Companii de tehnologie precum Google, Facebook, Microsoft și altele au investit masiv în infrastructura de deep learning Majoritatea acestor companii sunt deja familiarizate cu sistemele de învățare automată, probabil din experiența anterioară, cum ar fi publicitatea predictivă sau motoarele de căutare Ca urmare, tranziția lor la auto-învățare profundă din vechile sisteme de învățare automată a necesitat doar o ușoară schimbare conceptuală În plus, succesul aplicațiilor anterioare ale învățării automate a convins managementul tehnologiei că învățarea profundă poate fi aplicată mai pe scară largă în companii Din aceste motive, companiile de software vor rămâne probabil principalii utilizatori ai deep learning în viitorul apropiat Dacă veți obține un loc de muncă folosind învățarea profundă în următorii câțiva ani, este foarte posibil să ajungeți într-o companie de tehnologie În același timp, totuși, se pregătește o schimbare mai largă, în care învățarea profundă începe să pătrundă în industriile în care învățarea automată nu a fost folosită prea mult din punct de vedere istoric Spre deosebire de metodele de învățare automată mai simple, învățarea profundă reduce nevoia de preprocesare a caracteristicilor complexe și permite intrarea directă a datelor perceptuale, textuale și moleculare Drept urmare, o serie de industrii acordă atenție noilor tendințe, iar multe start-up-uri inovatoare au început deja lucrări la scară largă pentru a restructura aceste industrii Vom discuta acum pe scurt unele dintre schimbările care au loc în industriile de vârf și vom reține că pot exista multe noi locuri de muncă pentru experții în deep learning în viitorul apropiat Aplicațiile sunt sinergice În continuare, veți explora o serie de aplicații de deep learning într-o varietate de industrii În mod uimitor, toți folosesc aceiași algoritmi fundamentali de învățare profundă Tehnicile pe care le-ați văzut, cum ar fi rețelele complet conectate, rețelele convoluționale, rețelele recurente și auto-învățarea de maximizare a consolidării, sunt utilizate pe scară largă în oricare dintre aceste domenii În special, aceasta înseamnă că îmbunătățirile cheie în proiectarea rețelelor convoluționale vor da roade în aplicațiile farmaceutice, agricole și robotice În schimb, inovațiile în învățarea profundă descoperite de inginerii robotici vor filtra și întări, la rândul lor, principiile de bază ale învățării profunde Acest ciclu creativ, pe măsură ce principiile fundamentale rafinează aplicațiile care rafinează principiile fundamentale, înseamnă că auto-învățarea profundă este o forță menită să rămână serioasă și lungă I Capitolul Auto-învățare profundă în industria farmaceutică Învățarea profundă dă semne ale unei decolări masive în dezvoltarea medicamentelor, care este împărțită în numeroase faze Există o fază de dezvoltare preclinică, când efectele potențialelor medicamente sunt testate indirect în eprubete și animale, iar apoi o fază clinică, în care medicamentul este testat direct pe voluntari Un medicament care trece ambele faze ale studiilor non-umane și umane este aprobat pentru vânzare către consumatori Cercetătorii au început să construiască modele care eficientizează fiecare parte a procesului de dezvoltare a medicamentelor De exemplu, învățarea profundă moleculară a fost aplicată la probleme precum prezicerea toxicității potențiale a medicamentelor presupuse, precum și la problemele chimice legate de sinteza și proiectarea moleculelor de medicamente Alți cercetători și companii folosesc rețele convoluționale profunde pentru a dezvolta noi experimente care urmăresc îndeaproape comportamentul celular la scară masivă pentru a obține informații mai profunde asupra biologiei neexplorate Aceste practici au avut un oarecare impact asupra lumii farmaceutice, dar până acum nu s-a întâmplat nimic dramatic din cauza faptului că nu există nicio modalitate de a construi un singur model care "proiectează" cel mai nou medicament Cu toate acestea, pe măsură ce eforturile de a colecta date și de a dezvolta modele biologice și chimice de învățare profundă continuă, acest lucru se poate schimba dramatic în următorii câțiva ani Auto-învățare profundă în justiție Domeniul juridic se bazează în mare măsură pe precedentul din literatura juridică pentru a argumenta legalitatea sau ilegalitatea noilor cauze judecătorești În mod tradițional, legiuni de cercetători parajuriști au fost angajați de marile firme de avocatură pentru a efectua căutările necesare în literatura juridică În ultimii ani, motoarele de căutare legale au devenit un cost standard pentru majoritatea afacerilor moderne Astfel de algoritmi de căutare sunt încă relativ imaturi și este probabil ca sistemele de învățare profundă pentru procesarea neurolingvistică (NLP) să poată oferi îmbunătățiri semnificative De exemplu, o serie de startup-uri lucrează la construirea de sisteme NLP profunde care oferă forme mai bune de a solicita precedent legal Alte startup-uri lucrează la metode predictive care utilizează învățarea automată pentru a prezice rezultatul unui proces, în timp ce unele experimentează chiar și metode automate de generare a argumentelor legale În general, aceste aplicații complexe ale modelelor profunde vor avea nevoie de timp pentru a se maturiza, dar valul de inovație juridică în IA anunță probabil o schimbare dramatică în profesia de avocat Viitorul învățării profunde | Autoînvățare profundă pentru robotică Industria robotică a evitat în mod tradițional introducerea învățării automate, deoarece nu este ușor de justificat că introducerea sistemelor de învățare automată în acest domeniu nu reprezintă un pericol Această lipsă de garanții de securitate poate fi un factor de descurajare major pentru sistemele de construcție care nu trebuie să fie implementate pentru a crea un pericol în jurul operatorilor umani Cu toate acestea, în ultimii ani a devenit evident că sistemele de învățare profundă combinate cu metodele de autoînvățare cu cerințe reduse de date pot oferi îmbunătățiri semnificative în sarcinile de control al roboților Google a demonstrat că auto-învățarea care maximizează întărirea poate fi desfășurată pentru a învăța să controleze brațele robotizate folosind o fabrică de brațe robotizate pentru a permite instruirea la scară largă pe roboți reali (Figura ) Este probabil ca astfel de metode îmbunătățite de auto-învățare pentru roboți să înceapă să găsească aplicații în industria robotică mai mare în următorii câțiva ani Orez Google rulează mai multe brațe robotizate pe care le folosește pentru a testa metode de auto-învățare profundă care maximizează întărirea pentru controlul robotizat În următorii câțiva ani, este posibil ca această cercetare fundamentală să-și găsească drumul către podeaua fabricii Auto-învățare profundă în agricultură Agricultura industrială este deja puternic mecanizată, tractoarele sofisticate fiind folosite pentru plantare și chiar recoltare Progresele în robotică și viziune pe computer accelerează această tendință spre automatizare Rețelele convoluționale sunt deja folosite pentru a identifica buruienile, | Capitolul care poate fi îndepărtat cu mai puține pesticide Alte companii au experimentat cu tractoare autopropulsate, culegerea automată a fructelor și optimizarea algoritmică a randamentului În prezent, aceste eforturi sunt în mare parte proiecte de cercetare, dar în următorul deceniu ele se vor dezvolta probabil în proiecte mari de implementare Utilizarea etică a învățării profunde Marea majoritate a acestei cărți a fost dedicată utilizării eficiente a învățării profunde Am analizat multe metode pentru construirea de modele profunde care se generalizează bine la diferite tipuri de date Acestea fiind spuse, merită să petrecem puțin timp gândindu-ne la implicațiile sociale ale sistemelor pe care le construim ca ingineri Sistemele de învățare profundă pot iniția multe aplicații potențial periculoase În primul rând, rețelele convoluționale vor permite utilizarea pe scară largă a tehnologiilor de recunoaștere a feței China a preluat conducerea în implementarea unor astfel de sisteme pentru aplicații din lumea reală (Figura ) Orez Guvernul chinez implementează pe scară largă algoritmi de recunoaștere facială bazați pe rețele convoluționale Capacitatea acestor sisteme de a urmări oamenii va însemna probabil că anonimatul în spațiile publice din China va fi de domeniul trecutului Viitorul învățării profunde | Rețineți că detectarea omniprezentă a feței va însemna că anonimatul public va dispărea în uitare Orice acțiune întreprinsă în sfera publică va fi înregistrată și urmărită de corporații și guverne Această viziune asupra viitorului trebuie să pară tulburătoare pentru oricine este preocupat de implicațiile etice ale auto-învățarii profunde Mai mult, atunci când algoritmii pot înțelege informațiile vizuale și perceptuale, aproape toate aspectele vieții umane vor intra sub influență algoritmică Această tendință este macroscopică și nu este clar că există vreun inginer care să poată preveni acest viitor Cu toate acestea, inginerii își păstrează capacitatea de a "vota cu picioarele" Abilitățile dumneavoastră sunt valoroase și solicitate; nu funcționează pentru companii care urmează practici neetice și care construiesc sisteme potențial periculoase Prejudecăți în inteligența artificială Învățarea automată și învățarea profundă oferă capacitatea de a antrena fără efort modele interesante pe date Acest proces matematic elaborat poate crea un miraj al obiectivității Merită să subliniem că într-o astfel de analiză pot pătrunde tot felul de părtiniri și chiar prejudecăți Prejudecățile în datele de bază preluate din înregistrări istorice părtinitoare poate determina modelele să fie antrenate pe modele fundamental inechitabile Google, fără a fi supărat, a descoperit odată că un model de predicție vizuală eronat eticheta consumatorii afro-americani drept gorile, probabil din cauza date de antrenament supradimensionate care nu aveau o reprezentare adecvată a persoanelor cu culori diferite de piele Deși acest sistem a fost remediat rapid odată ce eroarea a fost adusă în atenția Google, astfel de eșecuri sunt profund îngrijorătoare și simbolizează problemele fundamentale ale excluderii sociale în tehnologie industrie Pe măsură ce inteligența artificială este din ce în ce mai utilizată în aplicații precum procedurile de eliberare condiționată a deținuților și aprobările de împrumut la instituțiile de credit, devine din ce în ce mai important pentru noi să ne asigurăm că modelele noastre nu adoptă ipoteze rasiste sau nu învață din părtiniri deja prezente în datele istorice Dacă lucrați cu date sensibile, faceți predicții care ar putea schimba cursul vieții oamenilor, verificați de două ori sau chiar de trei ori pentru a vă asigura că sistemele dvs nu cad pradă distorsiunilor de date I Capitolul Este inteligența artificială universală cu adevărat inevitabilă? Întrebarea dacă inteligența artificială universală va apărea în curând sau nu este discutată pe larg Experții nu sunt de acord că ar trebui să ne bazăm serios pe apariția IA universală Credem că, deși nu există niciun rău în efectuarea cercetărilor privind "alinierea valorii AI" și "funcția de recompensă sigură", este puțin probabil ca sistemele AI de astăzi și în viitorul apropiat să obțină rapid sensibilitate După cum ați învățat din experiența personală, majoritatea sistemelor de învățare profundă sunt doar mașini numerice complexe, supuse multor probleme subtile de stabilitate numerică Probabil că vor dura zeci de ani de progrese fundamentale înainte ca mintea universală să devină o realitate În același timp, așa cum am discutat în secțiunea anterioară, inteligența artificială are deja un impact semnificativ asupra comunităților și industriilor umane Deci, desigur, trebuie să vă faceți griji cu privire la impactul AI, dar fără a veni cu povești de groază nebunești Concepția greșită a superinteligenței Artificial Intelligence: Stages, Threats, Strategies de Nick Bostrom (Oxford University Press) a avut un impact profund asupra discursului despre AI Premisa de bază a cărții este că o explozie de inteligență poate avea loc atunci când modelele devin capabile să se îmbunătățească recursiv În sine, această idee nu este deosebit de radicală Dacă ar apărea o IA universală, nu există niciun motiv să presupunem că nu s-ar putea îmbunătăți rapid a fi În același timp, expertul în învățare profundă, Andrew Ng, a doborât recordul spunând că îngrijorarea cu privire la superinteligență este ca și cum vă faceți griji cu privire la suprapopularea pe Marte Într-o zi, este posibil ca omenirea să ajungă pe Marte Când oamenii aterizează pe planeta roșie, este probabil să existe o suprapopulare, care poate deveni chiar o problemă foarte serioasă Dar nimic din toate acestea nu schimbă faptul că Marte astăzi este un deșert Așa este starea literaturii despre crearea IA universală! Acum, această ultimă afirmație este hiperbolică Progresul solid în auto-învățare cu maximizarea întăririi și modelarea generativă deține multe promisiuni pentru crearea de agenți mai inteligenți Dar accentuarea posibilității apariției entităților suprainteligente distrage atenția de la sarcinile reale de automatizare pe care le întâlnim pe drum Desigur, nici măcar nu menționează alte probleme grave cu care ne confruntăm, precum încălzirea globală Bostrom N Superintelligence: Paths, Dangers, Strategies - Oxford University Press, - p (Vostrom I Inteligența artificială Etape Amenințări Strategii - M : Mann, Ivanov și Ferber, , - p ) Viitorul învățării profunde | Unde să merg mai departe? Dacă ați citit această carte cu atenție și ați depus efort pentru a lucra prin exemplele noastre de cod în depozitul GitHub corespunzător, atunci felicitări! Ați stăpânit deja principiile fundamentale ale învățării automate practice Veți putea antrena sisteme eficiente de învățare automată în practică Cu toate acestea, învățarea automată este un domeniu în creștere foarte rapidă Creșterea explozivă a acestui domeniu înseamnă că zeci de modele promițătoare sunt deschise în fiecare an Practicienii învățării automate trebuie să fie în permanență în căutarea unor noi modele Când luați în considerare modele noi, o modalitate utilă de a le evalua utilitatea este să încercați să vă gândiți cum să aplicați modelul la problemele care vă interesează dumneavoastră sau organizației dumneavoastră Această recenzie este o modalitate bună de a aduce un aflux mare de modele din partea comunității de cercetare și vă va oferi un instrument pentru a prioritiza învățarea metodelor care sunt cu adevărat importante pentru dvs În calitate de expert responsabil în învățarea automată, asigurați-vă că vă gândiți la ce sunt folosite modelele dvs de date științifice Întrebați-vă, munca dvs de învățare automată este folosită pentru a îmbunătăți bunăstarea umană? Dacă răspunsul este nu, înțelegeți că, cu abilitățile dvs , aveți o oportunitate grozavă de a găsi un loc de muncă în care să vă puteți folosi superputerile de învățare automată pentru bine și nu pentru rău În sfârșit, sperăm că vă veți distra mult Învățarea profundă este un domeniu incredibil de vibrant al efortului uman, plin de noi descoperiri interesante, oameni străluciți și potențial de impact major A fost plăcerea noastră să vă împărtășim entuziasmul și pasiunea pentru acest domeniu și sperăm că ne veți multiplica eforturile prin împărtășirea cunoștințelor dumneavoastră despre auto-învățare profundă cu lumea exterioară Capitolul Index de subiect A AlexNet , AlphaGo , , , Anaconda Python , Circuit integrat specific aplicației (ASIC) argparse Inteligențe generale artificiale (AGI) Avantaj asincron actor-critic (A C) c Unitatea centrală de procesare (CPU) , Cifarlo încărcare de date arhitectură de rețea convoluțională multistrat antrenament pe mai multe GPU-uri Arhitectura dispozitivului unificat de calcul (CUDA) CuDNN CycleGAN D albastru profund Deep Q-networks (DQN) Deep Chem instalare auto-învățare cu maximizarea întăririi Mintea profundă Credința îndepărtată dtip , F Matrice de porți programabile în câmp (FPGA) G Rețeaua GAN I, Unități recurente cu încadrare (GRU) Traducere automată neuronală Google (GNMT) Unitate de procesare grafică (GPU) , InfiniBand Intel J JO N L b -pierdere Stratul LeNet LeNet- Memoria pe termen lung (LSTM) M Procesele de decizie Markov (MDP) MNIST MoleculeNet N ndarray , NumPy , NVIDIA , - , NVLINK p Penn Treebank , O arhitectură recurentă de bază Despre încărcarea datelor în TensorFlow Despre restricții Despre preprocesare Python API Q Q-Auto-învățare R Renet Eroarea pătratică medie (RMSE) s SELECTAȚI skleam metrics T Unitate de procesare a tensorului (TPU) TensorBoard: Despre vizualizarea logisticii model de regresie spații de nume TensorFlow , cutii documentație operații cu matrice constrângeri variabile beneficii sesiune antrenament model setup primitive fundamentale TensorFlow Eager TensorGraph tf contrib tf data tf tf tf float tf float tf GFile tf Graph , , tf InteractiveSession tf keras tf matmul tf namescopes tf nn max pool tf Sesiunea tf Tensor tf tren tf trunchiat normal tf Variable Tox , tren op TrueNorth | Index de subiect A Autoencoder variațional Agent Despre tic-tac-toe ° mediu abstract ° orientarea obiectului ° definiția graficului stratului ° abstracție stratificată ° mediu de joc Activare liniar rectificat Algoritm: benzinărie Auto-învățare Q critică de strategie asincronă fără model pentru auto-învățare cu maximizarea întăririi strategie de învățare uitare catastrofală orientat spre model elev, principiul cutiei negre optimizare căutare în grilă căutare aleatorie pentru hiperparametri antrenament asincron Aproximator universal , B Bloc de supape recurente V Greutate: învățat , , convoluțional Date video , Recompensă , viitor redus Încorporarea dicționarului Selecția Hiperparametrul , Gradient , , Numarul direcționat , convoluții grafice d Date: intrare multidimensională clasificare, set sintetic Acțiunea Diferențiabilitate Proporția rezultatelor pozitive adevărate Uitarea catastrofală Sarcină: clasificare regresie Umplere , Învățare strategii Valoarea este aleatorie Și Un joc: arcade: ° ATAR ° Breakout tic-tac-toe StarCraft strategic Imagine RGB Index: covariantă contravariantă Instrucțiuni de înregistrare Inteligență: ciclu artificial, boom și bust universal artificial , La Clasa memorată Coadaptare Codificarea cu o stare activă Ingineria caracteristicilor Conceptul de desfășurare a situației de joc Index de subiect | Corelații false Coeficient: determinare Corelație Pearson, pătratică Curba de performanță a receptorului l Pădure aleatorie Linia despărțitoare Localizarea obiectului m Maximizarea armăturii asincronă Matricea poartă, programabilă de utilizator (FPGA) diagonala singur erori adunarea matricei transpune înmulțire: o la matricea o pe scalarul ° element cu element Mașina Turing neural , Interconectarea dispozitivelor de memorie Metodă: A C fit adăugați ieșirea build build graph p еѵаі eval potrivi get global step obține tensorii de intrare obține variabilele stratului citeste cifarlO restaurare variabile de reutilizare sess run , , FROM pierdere set set de optimizare tf lnteractiveSesiunea tf Tensor eval , Despre tf Tensor get forma Despre tf train FileWriter Despre căutarea în zăbrele Metrica , Mini layout Minime Mini pachet Modelare: serie temporală la nivelul caracterului la nivelul cuvântului limbi Model: adâncime setare automată antrenat nota secvență la secvență (seq seq) contradictoriu precizie n Kit: control test Ruperea simetriei Instabilitatea gradientului O Detectarea obiectelor Echipament: pentru antrenament și ieșire numai pentru ieșirea Educaţie: adâncime: ° Utilizări alternative Utilizare etică mașină: □ evoluție rapidă o compensare potențială Constrângere de calcul Operare de control al fluxului Optimizare: hiperparametric despre automatizare sub controlul derivatelor orb I Index Reperul Orientarea obiectului Oprire devreme Depanare în stil vizual și non-vizual Abandonul Eroare RMS , P Memorie pe termen lung pe termen scurt Paralelism: date modele Parametru care poate fi învățat Parametrizare Mașină neuronală de traducere Google , Supraîncărcarea operatorului Variabila memorat Remontare , Nedumerire Perceptron Metrica , Câmpul receptiv local , Completitudine de Turing Semiconductor Pragul de limită Pierderea de entropie încrucișată , Regula evolutivă staționară Predicție prospectivă Prezentarea învățării Transformare: Laplace Legendre complet conectat Fourier Precizie Tip turnare, implicit Primitiv: TensorFlow învăţare profundă Problema cu gradient de dispariție Programare: declarativ imperativ cu stare funcțional Proiect stație de lucru, statistici Derivată Subțierea Spațiul vectorial , , Procesul de luare a deciziilor, Markov , Procesor tensor R Mărimea: tranzistoare pași Recunoaștere optică a caracterelor Distributie: probabilități normal Propagare inversă , Regresia liniară Regularizarea scale Rând: Taylor Fourier Cu Auto-învățare: adâncime ° primitive mașină: ° molecular ° viteza chipului singur cu maximizarea armăturii ° agent tic-tac-toe ° algoritmul benzinăriei ° algoritmi ° Procesul de luare a deciziilor Markov ° restricții ° simulare , Convoluția s-a întins Sesiunea Segmentarea imaginii Net: adversar generativ adâncime mare adâncime: o prezentare generală a antrenamentului ° Antrenament paralel pe datele CifarlO folosind mai multe GPU-uri Index de subiect | ° hardware special ° antrenament pe CPU ° instruire distribuită complet conectat ° adâncime, componente ° antrenament neuronal recurent ° Mașină Turing ° optimizare ° Completitudine Turing ° cererea ° arhitecturi recurente circumvoluție ° neural, construcție structural-agnostic Simulare bazat pe CPU Scalar Viteză: învăţare jetoane Dicţionar: transfer de date bloc Strat: maxim reducând , complet conectat circumvoluția , ° transformare Spectrograma vorbirii Specificitate Coborare: gradient , ° stocastic, streaming absolvenți miercuri , Medie Abatere standard Superinteligență T tensor: la fizică secundă rangul calculul valorii const, inițializare operatori matrice rang zero procesare formular selecție de valori aleatoare primul loc adăugare și scalare creare și prelucrare tipuri locul al treilea , al patrulea rang Teorema: Weierstrass-Stone despre convergența universală Tehnologia de detectare a feței Precizie rezumat Emisiunea Instruire: asincron deep network distribuite - pe GPU pe CPU: ° cipuri neuromorfe ° beneficii ° matrice de porți programabile de utilizator ° față de antrenament GPU ° antrenament pe TPU de la la La Optimizarea nodului f Filtrul Formular, procesare Caracteristica scor de precizie tf assign tf constant tf convertire la tensorul tf diag tf expand dims tf eye tf fi! tf FixedLengthRecordReader tf getdefaultjgraph tf global-Variables initializer tf gradiente I Index O tf matmul Despre tf matrixtranspose Despre tf namescope , I Despre tf nn conv d , Despre tf nn embeddinglookup Despre tf nn max pool Despre tf nn relu Despre tf ones Despre tf randnormal Despre tf ranuniform Despre tf randomnormal Despre tf range Despre funcția de conversie a tensorului tf register Despre tf reshape Despre tf squeeze Despre tf rezumat tf summary merge all tf rezumat scalar tf pentru a dubla tf to float tf to int tf to int tf train AdamOptimizer tf zero Despre Gradient La minimizarea , O minimă și derivată , O multidimensional Aproximativ continuu O multiliniar Despre pierderi , Despre superioritate Despre tip casting O sigmoid , Cost cam X Funcția hashing c Lanțul de impuls h Cip neuromorf w Sah profesionist uh Crucea de entropie Epoca eu Nucleul de convoluție Celula de memorie pe termen lung pe termen scurt Index de subiect | TensorFlow pentru învățare profundă Această carte vă prezintă TensorFlow, noua bibliotecă revoluționară de software de învățare profundă a Google Pentru stăpânire, este suficient să aveți cunoștințe de bază de algebră liniară și analiză matematică În practică, vă veți familiariza cu elementele de bază ale învățării automate și veți învăța cum să rezolvați atât problemele tipice, cât și cele non-standard Cartea vă va arăta cum să proiectați sisteme care să detecteze obiecte în imagini, să înțeleagă text și chiar să prezică proprietățile potențialelor medicamente Cartea conține multe exemple practice și oferă o cunoaștere solidă a principiilor fundamentale ale învățării profunde, începând de la nivelul zero Este ideal pentru dezvoltatorii practicanți cu experiență în proiectarea sistemelor software și va fi util pentru acei profesioniști care nu au probleme la scrierea scripturilor, dar nu se descurcă întotdeauna cu proiectarea algoritmilor de învățare În această carte tu: Familiarizați-vă cu principiile fundamentale ale bibliotecii TensorFlow, inclusiv efectuarea calculelor de bază; să construiască sisteme simple de învățare pentru a înțelege bazele lor matematice; scufundați-vă în rețele profunde complet conectate, utilizate în mii de aplicații; transformați prototipurile în modele de înaltă calitate cu optimizare hiperparametrică; procesează imagini folosind neuronale convoluționale I rețele; învățați să vă ocupați de seturile de date în limbaj natural ÎN utilizarea rețelelor neuronale recurente; aplicați învățarea de maximizare a întăririi folosind jocuri precum tic-tac-toe ca exemplu; antrenați rețele profunde cu hardware, inclusiv GPU-uri și procesoare tensor și(r) ■ , , ISBN - - - - , Sankt Petersburg, str Goncharnaya, Telefon: ( ) - - , - - , - - E-mail: mail@bhv ru Internet: www bhv ru Bharath Ramsundat este doctorand în Computing și Deep Learning la Universitatea Stanford și este dezvoltatorul principal al pachetului open source DeepChem io bazat pe biblioteca TensorFlow Reza Bosagh Zadeh este fondatorul și CEO-ul Matroid și profesor adjunct la Universitatea Stanford Activitățile sale profesionale sunt în domeniul învățării automate, al matematicii aplicate computaționale și discrete El a făcut parte din consiliile consultative tehnice ale Microsoft și a fost, de asemenea, implicat în construirea algoritmilor de învățare automată care stau la baza sistemului Twitter A dezvoltat și predă două clase la nivel de doctorat la Universitatea Stanford: Algoritmi distribuiti și optimizare și Matematică și algoritmi discrete 